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Abstract 


The conjugate gradient and Newton'’s algorithms are highly reliable, with well-established theoretical 
results and excellent numerical performance. However, their relationship has not been fully explored, 
and there has been limited progress in designing efficient and robust algorithms for large-scale problems 
that utilize the concepts of these two algorithm classes. Therefore, the objective of this thesis is to 
address the issue of the interrelation between the conjugate gradient and Newton'’s algorithms. To 
provide at least à partial answer to this problem, we investigate how these two algorithms can influence 
and complement each other to enhance optimization performance. To achieve this, we develop three 
conjugate gradient methods based on the direction of Newton and the secant equation. The aim is to 
preserve the advantages of the conjugate gradient algorithms while incorporating certain beneficial 
properties of Newton’s method without directly evaluating the Hessian matrix. We also study the 
global convergence of our methods and demonstrate their effectiveness by numerically comparing them 
to other efficient methods. Additionally, we devise a numerical test to evaluate whether our three 
algorithms can approximate the quadratic convergence observed in Newton’s method. 


Keywords: Conjugate gradient algorithm, Newton'’s algorithm, Descent direction, Global convergence, 
Quadratic convergence, Numerical experiments. 
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Résumé 


Les algorithmes du gradient conjugué et de Newton sont très fiables, avec des résultats théoriques bien 
établis et une excellente expérience numérique. Cependant, la relation entre eux n’a pas été pleinement 
explorées, et il n’y a pas eu de progrès significatif dans la conception d’algorithmes efficaces et robustes 
pour des problèmes à grande taille, utilisant les concepts de ces deux classes d’algorithmes. Aïnsi, 
l’objectif de cette thèse est de traiter la problématique ” l’ interrelation entre les algorithmes du 
gradient conjugué et ceux de Newton ” Afin d'y apporter une réponse, même partielle, nous étudions 
comment ces deux algorithmes peuvent s’influencer et se compléter mutuellement pour améliorer les 
performances d'optimisation. Pour ce faire, nous développons trois méthodes du gradient conjugué en se 
basant sur la direction de Newton et l’équation de la sécante. L'idée est de conserver les avantages des 
algorithmes de gradient conjugué, tout en incorporant certaines propriétés bénéfiques de la méthode de 
Newton, sans l'évaluation directe de la matrice hessienne. Nous étudions également la convergence 
globale de nos méthodes et nous montrons leur efficacité, en les comparant numériquement à d’autres 
méthodes efficaces. De plus, Nous développons un test numérique pour évaluer si nos trois algorithmes 
approche numériquement la convergence quadratique observé dans la méthode de Newton. 


Mots clé : Algorithme du gradient conjugué, Algorithme du Newton, Direction de descente, 
Convergence globale, Convergence quadratique, Expériences numériques 


Mathematics Subject Classification : 90C06, 90C26, 49M15, 90C30, 65K05 
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Introduction générale 


L’optimisation est une discipline fondamentale des mathématiques appliquée dans les sciences de 
l'ingénierie, l’économie et l’industrie en général. Son objectif est de trouver la solution optimale à certains 
problèmes mathématiquement définis, qui sont souvent des modèles de phénomènes réels. 

Cette recherche se concentre principalement sur l’étude et le test de quelques problèmes d’optimisation 
sans contrainte, où les variables sont des nombres réels et les fonctions objectif sont réelles et dépendent de 
plusieurs variables. Plus formellement, l’optimisation sans contrainte correspond à l'étude de problèmes 
exprimés de la manière suivante. 

Trouver un élément x* € R" qui minimise ou maximise une fonction f: R° + R donnée. En général, 
on se concentre principalement sur la minimisation des problèmes, car la maximisation et la minimisation 
sont équivalentes. 

Au cours des dernières années, de nombreuses techniques d’optimisation ont été développées pour 

résoudre les problèmes d’optimisation sans contrainte. Parmi ces techniques les algorithmes de gradient 
conjugués et de Newton ont été largement étudiés et appliquées avec succès dans de nombreux secteurs. 
L’algorithme de gradient conjugué a été découverte en 1952 par Hestenes et Steifel [31] (méthode HS) pour 
minimiser les fonctions quadratiques strictement convexes (cas linéaire). En 1964, Fletcher et Reeves [23] 
(méthode FR) ont été les premiers à étendre cette méthode pour le cas non linéaire, suivis par plusieurs 
autres mathématiciens notament, Polak-Ribière et Ployak [15, 16] en 1969 (méthode PRP) , Fletcher en 
1987 [21] (méthode CD), Liu et Storey en 1991 [10] (méthode LS), Dai et Yuan en 1999 [15] (méthode 
DY). 
L’algorithme de Newton peut être considéré comme la méthode locale de base utilisant des informations 
du second ordre. Cette méthode est brièvement illustrée car la plupart des méthodes du second ordre 
sont dérivées sous forme d’approximations. Lorsque le point initial est proche de la solution, la méthode 
de Newton fournit un taux de convergence quadratique. Pour plus de détails, voir [19]. 

Ces deux algorithmes sont réputés pour leur fiabilité, leurs résultats théoriques bien établis et leur 
excellente performance numérique. Cependant, la relation et l’interconnexion entre eux n’ont pas été 
pleinement explorées, et il n’y a pas eu de progrès significatif dans la conception d’algorithmes efficaces 
utilisant les concepts de ces deux catégories d’algorithmes. 

Nous pouvons formuler la problématique dans la question suivante ”’existe-t-il une interrelation entre 

les algorithmes du gradient conjugué et ceux de Newton?” 
Afin de répondre à cette problématique, nous approfondirons notre compréhension de l’interrelation en- 
tre les algorithmes du gradient conjugué et de Newton, en étudiant comment ils peuvent s’influencer 
et se compléter mutuellement pour améliorer les performances des méthodes d'optimisation. Pour ce 
faire, nous développerons des nouveaux méthodes d'optimisation qui combinent à la fois les avantages 
des méthodes du gradient conjugué et de Newton, tout en évitant leurs faiblesses. 


Notre thèse est structurée en cinq chapitres, précédés d’une introduction et conclue par une conclusion 
avec des perspectives pour des études futures. 


Dans le premier chapitre, nous introduisons un rappel de quelques notions mathématiques importantes 
relatives à l’optimisation sans contrainte. De plus, nous nous rappellerons les méthodes du gradient con- 
jugué et la méthode de Newton, ainsi que leurs propriétés de convergence. 


Dans le deuxième chapitre, qui représente l’essentiel de notre recherche, nous avons développé une 
nouvelle méthode hybride de gradient conjugué qui combine les méthodes (DY) et (DL) de manière 
convexe. Cette méthode a été conçue pour être étroitement liée à la méthode de Newton, tout en évitant 
le coût de calcul associé à l’évaluation directe de la matrice hessienne grâce à l’utilisation de l’équation 
de sécante. Cela la rend utile pour résoudre des problèmes d’optimisation à grande échelle. La condition 
de descente suffisante et la convergence globale ont été prouvées. 
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Nous avons également réalisé des expériences numériques pour confirmer l'efficacité de la nouvelle 
méthode par rapport à quelques autres méthodes, en termes de temps de calcul, de précision et de nom- 
bre d’itérations. 


Le troisième chapitre, est consacré à la présentation d’une nouvelle méthode hybride de gradient con- 
jugué qui relie les méthodes (WYL) et (CD) dans un mélange convexe en utilisant la direction de Newton 
et l'équation de la sécante afin d’obtenir certaines propriétés souhaitables à la fois des méthodes du gra- 
dient conjugué et de Newton, tout en évitant leurs inconvénients. La condition de descente suffisante et 
la convergence globale ont été prouvées. L'efficacité de la méthode proposée a été confirmée à l’aide d’un 
ensemble de problèmes de test standard, démontrant sa supériorité par rapport aux algorithmes (WYL) 
et (CD) dans la plupart des cas. 


Le quatrième chapitre est consacré à la présentation d’un nouvel algorithme hybride de gradient con- 
jugué. Cet algorithme introduit une approche permettant de combiner trois directions de descente de 
manière quasi-convexe. L'objectif de cet algorithme est de construire une direction qui approxime étroite- 
ment la direction de Newton en utilisant l’équation de la sécante. Nous avons démontré la propriété de 
descente et la convergence globale de cet algorithme. Nous avons illustré son efficacité en le comparant 
aux algorithmes DY, HS et DL à partir desquels il a été construit. De plus, nous l’avons également com- 
paré à l’algorithme BFGS pour confirmer que notre nouvel algorithme est une meilleure approximation 
de la méthode de Newton que l’algorithme BFGS. 


Enfin, sachant que, nos trois algorithmes de gradient conjugué ( DYDL, WYLCD, QCC }) ont été 
conçue pour être étroitement liée à la méthode de Newton afin de préserver certaines bonnes propriétés 
des algorithmes de gradient conjugué tout en incorporant certaines propriétés souhaitables de la méthode 
de Newton. Nous avons donc développé dans le chapitre 5, un nouveau test numérique pour tester si 
notre trois algorithmes approche numériquement la convergence quadratique observé dans la méthode de 
Newton, en analysant les rapports d’erreur entre deux itérations successives, et montrant graphiquement 
comment ces rapports d'erreur indiquent la présence d’un comportement de convergence quadratique. 
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Chapitre Il E 


Optimisation sans contraintes 


Introduction 


L'’optimisation sans contrainte est un domaine de l’optimisation, qui vise à trouver le minimum (ou 
maximum) d’une fonction objectif, sans imposer de restrictions sur les variables. Cela permet de résoudre 
un un grand nombre de problèmes dans divers domaines, en utilisant des algorithmes spécifiques pour 
atteindre l’optimum souhaité, notamment les méthodes de gradient conjugué et de Newton. 


1.1 Rappel sur quelques notions mathématiques importantes 


Dans ce qui suit on va introduire quelques définitions fondamentaux dont on aura besoin dans le traitement 
de notre sujet. 

Soit R” l’espace vectoriel réel de dimension n € N, dans tous ce qui suit, les vecteurs sont toujours 
des vecteurs colonnes et la transposée de x est notée par 7. 


Nous utilisons la norme || . || pour représenter la norme euclidienne, ainsi, la norme de x € R” est donnée 
par | x [= VaTx. 


Définition 1. /15]. 
Soit f:R'-R une fonction différentiable 


e< La fonction noté Vf : R + R est appelé le gradient de f et on écrit le gradient de f au point 


zx € R" comme suit . L à 
exo Cf, 2e. ae) va 


° Soit Vf:R'1-R différentiable, on appelle la Hessienne de f, la fonction V?f : R° + R*" 
définie comme suit 


®f 


“ Ox;0% ; &), 


V=J{e) can, n: (1.2) 


Définition 2. ./15] 
+ Une matrice carré B € R"*" est dite symétrique si 
DR 


+. Une matrice symétrique B € R°*" est dite définie positive si 


xT Bx > 0,VxeR",x£0 


+ Une matrice symétrique B € R"*" est dite semi définie positive si 


xl Bx >0,VxeR" 


1.2. Les conditions d’optimalité 


L’optimisation sans contrainte consiste à rechercher le minimum d’une fonction f de n variables à 
valeurs réelles sans imposer de contraintes spécifiques sur ces variables. 
Nous cherchons à trouver un point x* qui vérifié la relation suivante 


F7) < f(x), 


où, æ* est appelé minimum local. 
Ce problème sera formulé de la façon suivante 


min f(x), (1.3) 


Les méthodes de résolution de ce type de problème sont de nature itérative, c’est à dire qu’ à partir d’un 
point initial xo, on construit une suite qui converge vers une solution dite optimale. 


1.2 Les conditions d’optimalité 


La résolution efficace d’un problème d’optimisation, nécessitent des conditions d’optimalité adéquates. 
En effet, ces conditions nous permettent non seulement de vérifier la validité des solutions obtenues, mais 
elles jouent également un rôle clé dans le développement des algorithmes d’optimisation. 

Considérons le problème de minimisation (1.3) (minserr f(x).) 


Définition 3. . /1°] 


1. x* ER" est un minimum local de (1.8), s'il existe un voisinage V.(x*) tel que 
f(x") < f(x), Vz € Ve(x*) (1.4) 


2. Dans le cas ou f(x*) < f(x), Le minimum local est dit strict. 
3. àx* ER" est un minimum globale de (1.3) si 
f(a*) < f(x), Vx € R” (1.5) 
Définition 4. ./15] 
soit la fonction f : R° +R différentiable en x € R”. 
1. Un vecteur dE R” est appelé une direction de descente pour f en x si la condition 
Vf(x)"d <0 (1.6) 
est vérifié 
2. Le vecteur d € R" est dite une direction de descente suffisante de f en x si 
97 dr < c|| gx [P, VkeN, c>0, (1.7) 


avec gx = V f(x). 


Le résultat ci-dessous nous permet de fournir des critères pour déterminer si un point donné est un 
minimum local ou global de la fonction f. La propriété de différentiabilité de f permet de caractériser 
une solution optimale. Les théorèmes suivant illustrent les conditions nécessaires d’optimalité.” 


Théoreme 1 (Optimalité du premier ordre ). .///] 
Supposons que la fonction f : RH R est différentiable au point x* € R”. Si le point x* est un minimum 
local de f, alors V f(x*) = 0. 


Théoreme 2 (Optimalité du seconde ordre ). .///] 
Soit la fonction f : RH R deux fois différentiable au point x* € R”. Si x* est un minimum local de f, 
alors V f(x*) = 0 de plus x TV? f(x*)x > 0, Vx € R” c-à-d V?f(x*) est semi définie positive. 


Les conditions précédemment énoncées sont nécessaires, c’est-à-dire qu’elles doivent être vérifiées par 
tout minimum local. Cependant, il est important de noter que tout point qui satisfait ces conditions n’est 
pas nécessairement un minimum local. Les théorèmes suivants établis les conditions suffisantes” pour 
que un point soit un minimum local, si f est deux fois différentiable. 
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1.3. La recherche linéaire 


Théoreme 3 (Optimalité du premier ordre ). .///] 
Soit la fonction f : RH R convexe, supposons que f est différentiable en x* € R”. 
Si V f(x*) = 0 alors x* est un minimum globale de f. 


Théoreme 4 (Optimalité du seconde ordre ). ///]. 
Soit la fonction f : R'+ R deux fois différentiable en x* € R”. 
Si V f(x*) = 0 et V?f(x*) est définie positive alors x* est un minimum local strict de f. 


Remarque 1. .///] 


1. Si la fonction f est convexe, alors tout minimum local est également un minimum global. 
2. si la fonction f est strictement convexe, alors tout minimum local est un minimum global unique. 
Nous allons maintenant présenté quelques définitions sur les modes de convergence 


Définition 5. .//9] 


Soit {xg}gsen une suite de vecteurs dans R", qui converge vers x*. La convergence est dite, 
+ Linéaire, s’il existe l €]0,1|, tel que 


li DÉTE  | … 
I — 
kr 00 | Tk — X* | 


+ super linéaire, si 


_ * 
Dane, 
ko || xx —x* || 
+ super linéaire d'ordre &, si 
[ven 2" | 
nm = <x, a>l 


ke || 27 —2* ||* 


En particulier si a = 2 la convergence de {xx}xen vers x* est dite quadratique (super linéaire d'ordre 
2) 
1.3 La recherche linéaire 


En optimisation mathématique, la recherche linéaire est l’une des méthodes classiques employées, pour 
traiter la convergence des algorithmes de calcul du minimum x* d’une fonction f: R'+ R. 


Considérons le problème d'optimisation sans contrainte (1.3), 


min f(x), (1.8) 


pour résoudre le problème (1.3), on fait appel aux algorithmes basés sur la génération de la séquence 
Tri = Tr + axdk, k > O0, (1.9) 
où, 
° dx est la direction de descente. 
- ax est le pas, qui est choisie de manière optimale et qui doit vérifier 


fax + ordx) < f(x + adx), a > 0. (1.10) 


En d’autres termes, le pas ax est une solution optimale du problème d’optimisation unidimensionnel 
suivant 


min f(xx + adx), (1.11) 
a>0 
où, xz et dy sont fixés et la fonction à minimiser notée 64, est définie comme suit, 


PR: RER, ar (a) = f(xx + adx). (1.12) 
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1.3. La recherche linéaire 


Rappelons que si f est différentiable, le pas optimal az peut être caractérisé par 


a = 0, 


Dk(ax) <hk(a), pour 0<a<ax, (1.13) 


autrement dit, ax est un minimum local de 64 qui assure la décroissance de f. 


Nous allons maintenant présenter les différentes approches utilisées pour déterminer un pas ax le long 
d’une direction de descente dz, ce processus étant communément appelé recherche linéaire. Il existe deux 
k; CE P PP 
principales catégories de techniques qui se concentrent sur l’optimisation unidimensionnelle, à savoir 


1. les recherches linéaires exactes. 


2. les recherches linéaires inexactes. 


1.3.1 La recherche linéaire exacte 


Puisque nous cherchons à minimiser la fonction f, il est naturel de chercher à minimiser le critère le 
long de la direction de descente dy, Ainsi, nous devons déterminer la valeur du pas ax > 0 qui résout le 
problème, 
in Dx(@). 1.14 
min (a) (1.14) 
Cette procédure est appelée règle de Cauchy et la taille du pas donnée par cette règle est appelée "pas 
de Cauchy" ou "pas optimal. Dans certains cas, nous préférons le plus petit point stationnaire de @x, qui 
le rende décroissant, nous aurons alors à déterminer ax; comme solution exacte de 


ax = min{a > 0:@(a) =0, da) < #(0)} 


comme sera déterminer de maniéré exacte alors cette technique est appelée, la recherche linéaire exacte 
[49]. 


Remarque 2. .//9] 


1. Dans la plupart des algorithmes d’optimisation modernes la recherche linéaire exacte n’est générale- 
ment pas utilisée, car trouver la valeur ax signifie qu'il va falloir évaluer la fonction bx à plusieurs 
reprises, ce qui peut être coûteux en termes de temps de calcul. En pratique, on cherche à trouver 
une valeur de x. qui garantit une décroissance suffisante de la fonction f. 


2. La règle de recherche linéaire exacte est uniquement utilisées dans des cas particuliers, par exemple 
si la fonction D, est quadratique, alors la solution de la recherche linéaire exacte s'obtient d’une 
façon exacte et par un nombre fini d'itérations. 

1.3.2 La recherche linéaire inexacte 


Au lieu d'exiger que ax minimise @4, il est préférable d'imposer des conditions moins restrictives mais 
plus facilement vérifiables et contribuent toujours à la convergence des algorithmes. En adoptant cette 
approche, il ne s’agit plus de trouver un unique pas (ou quelques pas) qui satisfait ces conditions, mais 
plutôt de définir un intervalle de pas (ou plusieurs intervalles), ce qui facilite la recherche d’une valeur 
approchée du pas az qui assure la convergence. C’est ce que nous faisons avec les règles d’Armijo, Gold- 
stein, Wolfe et Wolfe forte. 


Règle d’Armijo [10] La Règle d’Armijo est basée sur le choix d’un paramètre p, avec 
0O<p<1 
consiste à déterminer une valeur approchée de az par cette condition 
de(a) € #(0) + apps (0). (1.15) 
Cette règle a l'inconvénient de favoriser les valeurs trop petites. Elle n’est pas souvent utilisé seul. 


Remarque 3. . 
Accepter des pas trop petits peut entrainer un risque de fausse convergence. 
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Règle de Goldstein et Price [25] 
La règle d’Armijo permet de garantir la décroissance de la fonction f à chaque pas, mais cela n’est 
pas toujours suffisant pour assurer la convergence. La règle de Goldstein et Price suffit à garantir 
la convergence sous certaines conditions, elle détermine les valeurs approchées de ax à l’aide de deux 


conditions suivantes: 

Pk(a) < pk (0) + apg, (0), 

dk(a) Z #k(0) + a6d, (0) 
avec 0 < p < Ô < 1, la deuxième inégalité qui empêche le pas d’être trop petit. 
Règle de Wolfe [51] 


La règle de Goldstein et Price peuvent exclure un minimum, ce qui est peut être un inconvénient. La règle 
de Wolfe remédie à cet inconvénient. En effet, étant donnés deux paramètres p, 0 tel que 0 <p<d<1 


(1.16) 


(a) > 66(0) 


Remarque 4. La règle de Wolfe nécessite le calcul de be; elle est donc théoriquement plus couteuse que 
la règle de Goldstein et Price. Cependant, dans de nombreuses applications, le calcul du gradient V f(x) 
représente un petit cout supplémentaire par rapport au cout de l'évaluation de f(x), c’est pourquoi cette 
règle est largement utilisée. 


Règle de Wolfe forte [52] 
Pour certains méthodes ( par exemple la méthode de gradient conjugué non linéaire), il peut être nécessaire 
d'imposer une condition plus restrictive que celle donnée par la deuxième inégalité dans (1.17). Par 
conséquent, la deuxième inégalité dans (1.17) est remplacée par, 


. £ @r(0) + ap (0), (1.18) 


lb (a)| < —66,(0) 


où, 0<p<ô<l. 


1.4 La méthode du gradient conjugué 


1.4.1 La méthode du gradient conjugué linéaire 


L’algorithme du gradient conjugué linéaire, sert à minimiser des fonctions quadratiques convexes, ou 
pour résoudre des systèmes d’équations linéaires avec des matrices définies positives. Cet algorithme a 
été présenté pour la première fois par Hestenes et Stiefel [31] en (1952). 


Soit G € R°” une matrice symétrique définie positive et un vecteur b € R?. Considérons le problème 
de minimisation d’une fonction quadratique f à savoir 


min{ f(x) :x e R"} = min(qeT Gr —bz:zeR"} (1.19) 
nous avons 
gr = Vf(x) = Gx—b V?f(x) = G. (1.20) 


Lorsque G est définie positive, la fonction f est strictement convexe, et selon les conditions d’optimalité 
pour la minimisation d’une fonction différentiable, il s'ensuit que la fonction f admet un minimum global 
unique æ* vérifiant V f(x*) = 0. 

Notons que, d’après (1.20), x* la solution du problème (1.19) est également une solution du système 
linéaire suivant: 


Gzx = b 


Si on note Vf(xx) = gx, l'algorithme de la méthode du gradient conjugué dans le cas des fonctions 
quadratiques, génère une séquence comme suit, 


To € R”, Th+1 = Tk + ardy, (1.21) 
où, 
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° dx est la direction de recherche. 
- a, est le pas de recherche déterminé par une recherche linéaire exacte/inexacte. 


Considérons le vecteur do fixé, les directions d:,d2,...,d,_1 sont calculées à chaque itération par la 
relation, 
drx1 = —grr1 + Brdx, KkZ0, (1.22) 


où, 4 est une suite des coefficients obtenu de sorte que dx soit G conjugué avec les autres vecteurs, c’est 
à dire le choix des coefficients 54 permet d’assurer la propriété suivante: 


dE 1 Gdx = 0, (1.23) 
par conséquent, on en déduit 
dE, Gdx = 0 
En remplaçant la formule de la direction dx+1 par 1.22, nous obtenons 


(—gx+1 + Brdk)T Gdx = 0 


on a alors 
Bkdé Gdx = gk1Gdr 
Donc 
T 
Jk+1 Gdk 
= = — 1.24 
Br dTGdx , ( ) 


ainsi, le coefficient fx est bien défini. 


Dans le cas d’une fonction quadratique f, on peut facilement déterminer le pas ax en tant que solu- 
tion analytique exacte du problème de minimisation unidimensionnel, 


En d’autres termes le pas optimal ax vérifié f (ax) = 0. Or 


fox) = ŒVf(zrH) (1.26) 


d’après (1.20), il en résulte 


! 


fax) = dé(Gzrn —b) (1.27) 


remplaçons la formule de xx+1 par (1.21) 


! 


Fax) = dé(G(xr + axdx) — b) (1.28) 


1 
comme f (ax) = 0, nous obtenons alors 


dT(G{(xr + axdg)—b) = 0, (1.29) 
enfin, 
oo — RUE 
F7 TG 


avec gx = Vf(xx) = Gxx — b. 


Théoreme 5. .//9] 

Considérons le problème (1.19) avec la matrice G symétrique définie positive. Soit xo € R” un vecteur 
initial, alors la suite générée par l’algorithme du gradient conjugué dans le cas quadratique appliqué au 
problème (1.19), converge vers la solution optimale x* en n itérations (ï.e. x, = x* et Gry = Gx* = b.) 
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1.4.2 La méthode de gradient conjugué non linéaire 


La méthode du Gradient conjugué a été découverte en 1952 par Hestenes et Steifel [31], pour la 
minimisation des fonctions quadratiques. Plusieurs chercheurs ont étendu cette méthode au cas non 
linéaire (non quadratique). Cela à été fait pour la première fois en 1964 par Fletcher et Reeves [23]. 

Le principal avantage des algorithmes de gradient conjugué non linéaires, est leur faible besoin de 
stockage ainsi leur capacité à résoudre des problèmes d’optimisation non linéaire sans contrainte à grande 
taille, 

min f(x), (1:30) 


où, f : RH R une fonction différentiable. 


Tout algorithme non linéaire du gradient conjugué, génère une suite itérative présenté par la relation 
suivante: 
To € R”, Th+1 = Tk + ardx, (1.31) 


le pas az est déterminé par une recherche linéaire exacte/ inexacte et dy est la direction de recherche, 
calculée de façon récurrente par la relation, 


do = —go, de+1 = —gr+1 + Bd, k2Z0, (1.32) 
avec gx = Vf(xx) et Bx ER. 


Les différentes valeurs de scalaires fx définissent les différentes algorithmes du gradient conjugué. 


Quelques résultats de convergence des méthodes du gradient conjugué non linéaire 


L'objectif est de de déterminer les conditions ou les critères, qui garantissent la convergence de la suite 
{xx} générée par l’algorithme de gradient conjugué décrit par les relations (1.30) et (1.31), de manière à 
ce qu’elle converge vers x*, solution du problème (1.32). 

Une condition importante pour les algorithmes d’optimisation basées sur la règle de recherche linéaire, 
c’est que la direction de la recherche doit être une direction de descente, cela implique que les propriétés 
suivantes doivent être vérifiées par cette direction, ainsi 


gl dx <0, propriété de descente (1.33) 


gT dx < c|| gx [?, propriété de descente suffisante (1.34) 


pour tout k > 0, où c > 0 est une constante. 
Rappelons que, la condition de descente suffisante est plus forte que la condition de descente, puisque on 
a 

gr de < © || 98 7 gx dr < 0 


Pour analyser les propriétés de convergence d’une méthode de recherche linéaire, telle que le gradient 
conjugué non linéaire, il est possible d'évaluer l'efficacité de la direction de recherche et de la longueur 
du pas de recherche. L'évaluation de la qualité de la direction de recherche dx, peut être réalisée en 
examinant l'angle entre la direction de descente la plus pente —gx et la direction de recherche dx. Cet 
angle est donné par la formule 
“a 
coë(8s) = (1.35) 
I gx 11] de | 


Afin d'établir les résultats généraux de convergence de toute méthode décrit par les relations (1.30) et 
(1.31), nous introduisons des hypothèses (voir [19]) sur la fonction f à savoir 


1. Hypothèse de bornitude: L'ensemble # = {x € R"/f(x) < f(xo)} est borné, où x est le vecteur 
initial, (i.e. 34 > 0 pour que || x |< À Vx € H), avec la norme ||. || est ||. [2 de R”. 


2. Hypothèse de Lipschitz: Dans un certain voisinage V de l’ensemble #, f est continument différen- 
tiable et son gradient est Lipschitz continu, 3B > 0 telle que 


gx) —g(y)I<Blx-yl Vryev (1:36) 
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Selon les hypothèses de bornitude et de Lipschitz ci-dessus, le théorème suivant, dû à Zoutendijk [60] 
et Wolfe [51, 52], est essentiel pour démontrer les résultats de convergence globale des algorithmes 
d'optimisation sans contrainte dans le cas non linéaire, y compris le gradient conjugué ou l’algorithme de 
Newton. 


Théoreme 6. . 

Supposons que f est bornée dans R”" et que f est continüment différentiable dans un voisinage V de 
l’ensemble H. Supposons aussi que le gradient est Lipschitz continu, t.e. (1.36) est satisfait. 
Considérons toute itération de la forme (1.30), où dx est une direction de descente et ax vérifie les 
conditions de recherche linéaire de Wolfe (1.17). 

Alors on a 


S_ cos? 64 || gx [?< oo. (1.37) 
k=0 


La relation (1.37) est appelée condition de Zoutendijk, et d’après (1.35), elle peut s’écrire comme suit, 


00 T 2 
D» (gi) < oo. (1.38) 
22 | d | 


1.4.3 Quelques méthodes classiques et modifiées de gradient conjugué 


La méthode de Fletcher-Reeves 


Il s’agit d’une méthode de gradient conjugué connue sous le nom de méthode FR, introduite par 
Fletcher-Reeves et développée dans la référence [23], où le paramètre Bx dans (1.32) est noté BFA et 
prend la forme du quotient de la norme comme suit 


pr _ |gkt |? 
1 gx 11? 


En 1970, Zoutendijk [60] a démontré la convergence globale de la méthode FR, lorsqu'elle est associée 
à la recherche linéaire exacte. En 1977, Powel [17] a remarqué la sensibilité numérique de la méthode 
FR, lorsqu'elle est associée à une recherche linéaire exacte, puisque l’algorithme peut souvent effectuer 
de nombreux mesures courtes sans réaliser de progrès significatifs vers le minimum de la fonction. La 
mauvaise performance observée de la méthode FR dans plusieurs applications, peuvent être largement 
attribuées à ce phénomène de "brouillage". Al-Baali [41] a étendu le résultat de la méthode FR à la 
recherche linéaire inexacte forte de Wolfe avec 6 < 0.5 dans (1.18). Il a montré que si d < 0.5, la condi- 
tion suffisante est vérifiée et il y a une convergence globale. 


La méthode de Polak-Ribiére 


En 1969, Polak et Ribiére [45] et Polyak [16] ont proposé un autre choix du coefficient du gradient 
PRP 


conjugué Bx , noté Bi", qui est donné par la formule, 
T 
PRP _ 9k+1Vk 
L = 
IL 9x |? 


La convergence globale de la méthode PRP lorsque f est fortement convexe et la recherche linéaire utilisée 
est exacte, a été démontrée dans [15], . Dans le cas d’une fonction non linéaire générale , Powell [17] a 
démontré que si la taille du pas 5% = %x+1 — xx, tend vers 0 (lorsque la recherche linéaire utilisée est 
exacte et la continuité Lipschitzienne est assurée), la méthode PRP converge globalement. 

En revanche, Powell a développé plus tard [18], un contre-exemple à trois variables, qui démontre que 
la méthode PRP peut boucler indéfiniment sans approcher aucune solution; par conséquent, la condition 
selon laquelle la taille du pas tend vers 0, est nécessaire pour garantir la convergence de la méthode. Dans 
le cas où la direction de recherche est une direction de descente, la convergence globale de l’algorithme 
PRP, pour les fonctions fortement convexes associées à une recherche linéaire inexacte de Wolfe, a été 
établie par Yuan [57]. 


La méthode de Dai-Yuan 
C’est une méthode de gradient conjugué qui a été découverte par Ÿ. H. Dai et Ÿ. Yuan [15], connue 
sous le nom de méthode DY où le paramètre Bx , noté BP Ÿ, prend la forme suivante 


BY _ Î gk+1 |? 
dYk 
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La méthode DY, assure toujours la propriété de descente, lorsqu'elle est utilisée avec la recherche linéaire 
inexacte de Wolfe standard. De plus, si l'hypothèse de Lipschitz est satisfaite, la méthode DY converge 
globalement vers la solution du problème. Dans [17], Dai a découvert une propriété importante concer- 
nant la méthode de DY, qui permet d'établir un lien entre les directions de descente et la condition de 
descente suffisante. Il a démontré que, si 41,72 tel que 1 <|] gx [[< 2, Vk > 0 alors Vp €]0,1[, 2c > 0 
tel que, g/ dx < c || gx ||? est vérifiée. 


La méthode de Hestenes-Steifel 


En 1952, Hestenes et Steifel [31] ont proposé la version linéaire de cette méthode, pour résoudre les 


systèmes linéaires. Le paramètre B% , noté ra 5, s'écrit 


T 
HS __ Jk+1Vk 
 — 

dE yk 


La méthode HS vérifie toujours la condition de conjugaison dT 41ÿx = 0 indépendamment de la recherche 
linéaire utilisée. 

Avec la recherche linéaire exacte on a BP LE er $: par conséquent, la méthode HS est identique à la 
méthode PRP. Le contre-exemple de Powell [18] pour la méthode PRP, est également applicable à la 
méthode HS, ce qui montre la non-convergence de la méthode HS avec la recherche de lignes exacte. 


La méthode CD 


La méthode de descente conjuguée CD proposée par Fletcher [21], où le paramètre By , noté BCP, 
prend la forme suivante: 
op _ [LH |? 
: —dÿ gx 


Cette méthode est étroitement liée à la méthode FR. En plus on a eu utilisant une recherche linéaire 
exacte, BR = Br R._ Une différence importante entre les algorithmes FR et CD est que, avec CD la 
condition de descente suffisante, est garantie pour une recherche linéaire de Wolfe forte et la contrainte 
Ô < à avec FR, n’est pas nécessaire pour l’algorithme de CD. De plus, pour une recherche linéaire qui 
vérifie les conditions de Wolfe généralisées, introduites dans [18] avec 01 < 1 et 62 = 0, il est possible de 
montrer que 0 < BPP < BFR. Ansi, d’après l'analyse de [11] ou par le théorème de Zoutendijk [60], la 


convergence globale est atteinte. 
La méthode Dai Liao 


Dai et Liao [16] ont introduit une condition de conjugaison généralisée df,;yr = —tg},,sx et ont 
proposé le choix suivant pour x à savoir 


DL gi (ur — tsx) t>0 
k TL CRE À Vs 
dy Yk 


La formule ci-dessus peut être considérée comme une forme modifiée de BXS. Dai et Liao [16] ont mon- 
tré que la méthode CG avec BP L'est globalement convergente pour pour les fonctions uniformément 
convexes. Les expériences numériques ont montré que la méthode DL avec t = 0,1 est une améliora- 
tion significative de la méthode HS. Pour une recherche de ligne exacte, la méthode DL se réduit aux 
méthodes HS et PRP, ce qui indique que la méthode DL peut ne pas converger pour les fonctions générales. 


La méthode WYL 


Wei et al [61] et Huang et al [33], ont donné une formule modifiée pour BFÆP, pour améliorer les 


performances et les résultats de convergence de la méthode PRP. Cette formule est noté par AUPPE et 


s'écrit … 
WYL Jrk+1Vk 
k — 2 
Il gx | 
Er 1gx +1 |] 
. AVEC Yk — Jk+1 — Tori 4: 
La méthode avec la formule | a non seulement de bons résultats numériques, mais possède également 


la condition de descente suffisante et des propriétés de convergence globale, si la recherche linéaire de 
Wolfe Powell forte est utilisée avec Ô < 1. 
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Remarque 5. Si la fonction f est quadratique strictement convexe avec une recherche linéaire exacte, 


toutes ces variantes de Bx ont la même valeur GORE AE “el _. ER de plus la suite 


engendrée par l'algorithme de gradient conjugué converge en n itération. 


1.4.4 Méthodes hybrides du gradient conjugué 


Les méthodes hybrides du gradient conjugué sont développées en combinant différentes méthodes clas- 
siques, pour construire de nouvelles méthodes pratiques, qui bénéficient des avantages de chaque méthode 
combinée. 

Les méthodes standard de gradient conjugué peuvent être combinées de deux façons différentes, ce qui 
conduit à obtenir deux catégories de méthodes hybrides de gradient conjugué. 

La première catégorie concerne les méthodes hybrides de gradient conjugué, basées sur le concept de 
projection, caractérisées par une expression algébrique simple. Lorsqu'une méthode de gradient conjugué 
entre dans une phase de blocage, le schéma hybride active une autre méthode de gradient conjugué de 
la paire, dans le but d'améliorer les performances numériques de la méthode hybride. Par exemple, 
Touati-Ahmed et Storey [50] ont développé l’hybridation suivante: 


PRP PRP FR 
{ f 0 < BPRP < BE 


Br = . 
4 R Sinon 


lorsque les itérations sont coincées ou bloquées, le paramètre de mise à jour be RP est utilisé. Par les 


mêmes motivations Hu et Storey [32] ont développé la méthode hybride suivante 


Bk = max{0, min 6PARP, BFR1 
Les expériences numériques confirment que les performances de ces méthodes hybrides, sont souvent 
meilleures que celles des méthodes classiques. 

La deuxième catégorie est celle des méthodes hybrides de gradient conjugué, qui reposent sur la 
combinaison convexe de méthodes standard. Cela signifie que les méthodes standard de gradient conjugué 
sont combinées de manière convexe pour former une nouvelle méthode hybride. En général, ces méthodes 
hybrides sont plus performantes et plus fiables que les méthodes standard; Par exemple, N. Andrei [1] 
a introduit une méthode de gradient conjugué, nommée CCOMB, qui combine de manière convexe les 
méthodes de gradient conjugué (PRP) et (DY). Dans le but de bénéficier à la fois des propriétés de calcul 
de la méthode PRP et des propriétés de convergence de la méthode DY, où le scalaire 54 est donné par 
la relation suivante: 

Be = (1-0)86 "de + Be (1:39) 


avec le paramètre de l’hybridation 0 < 04 < 1, obtenu en utilisant la condition de conjugaison (at RUES 
0). 

Andrei a démontré que les directions générées par cette méthode, sont des directions de descente et que 
cette méthode est convergente particulièrement sous la condition de descente suffisante. 

Un certain nombre de mathématiciens, ont été motivés par l’idée d’Andrei et ont développé de nouvelles 
méthodes, basées sur la combinaison convexe. 


1.5 La méthode de Newton 


Considérons le problème de minimisation (1.3), 


min f(x), 


La méthode de Newton pour l’optimisation sans contrainte, consiste à utiliser itérativement l’approximation 
quadratique de la fonction objective f à l’itération actuelle x} et à minimiser cette approximation et pren- 
dre sa solution æ4}1 comme nouvelle approximation du point minimum +* 

Soit f: R° + R deux fois continument différentiable, xx € R” et la matrice Hessienne V? f(x) défini 
positif. La modélisation de f au point actuel x4, se fait par l’approximation quadratique suivante: 


HOBRICEAICONCEE DE Sr — ax) VE f(ax)(x — x) (1:40) 
La minimisation de (1.40) conduit à, 


Vif) + V'f(ex)(œryi — 2e) =0 (1:41) 
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alors on obtient la formule itérative suivante: 
ki = 2x — V'f(xx) TV f(x), (1.42) 


connue sous le nom de méthode de Newton [13], où le vecteur —V? f(x) 1V f(x;) est appelée la direction 
de descente Newton, en utilisant g; = Vf(xx) cette direction s'écrit alors 


dr = VV? f(ar) gs (1.43) 
Il est clair que si la matrice hessienne est définie positive, alors la direction de Newton est une direction 
de descente (gkdx = —gr; V?f(xx) !gx <0 ) 


La méthode de Newton peut converger vers le minimum d’une fonction quadratique en une seule 
itération; par contre, pour une fonction non quadratique générale, il n’est pas certain que la méthode de 
Newton puisse atteindre le minimum, avec un nombre fini d’itérations. La méthode de Newton possède 
une propriété très intéressante qui consiste à, sous certaines hypothèses, un taux de convergence quadra- 
tique local est prouvé, ce qui signifie qu’au voisinage de la solution optimale, les erreurs ex =|| 2x — æ* || 
(x* est la solution optimale), satisfont l'inégalité ex+1 < ye?, pour un certain y > 0 positif. 


Le théorème suivant prouve la convergence locale et le taux de convergence quadratique de la méthode 
de Newton. 


Théoreme 7. ./12] 
Soit f € C? et xx assez proche de la solution x* du problème de minimisation, avec V f(x*) = 0. 
Si la matrice Hessienne V? f(x*) est définie positive et V? f(x") vérifie la condition de Lipschitz, 


IV? F(æis — VE (y <Blz-yl Ÿ 1<ij<n (1.44) 


où, V?f(x);; est l'élément (i, 5) de V?f(x), et B > 0, alors Vk > 0, l’itération de Newton (1.42) est bien 
définie et la séquence générée {xx}k>0 converge vers x* avec un taux de convergence quadratique. 


La méthode de Newton avec recherche linéaire 
Il est important de noter que la méthode de Newton est une méthode locale, ce qui signifie que si le point 
de départ est loin de la solution optimal, il n’est pas certain que la matrice V? f(x) soit définie positive 
et que la direction de Newton soit une direction de descente. Par conséquent, la convergence n’est pas 
garantie. Nous savons que la recherche linéaire est une stratégie de globalisation, nous pouvons donc 
définir la méthode de Newton avec recherche linéaire (également appelée ”’the damped Newton method”), 
qui assure la convergence globale. Toutefois il convient de noter que la méthode de Newton ne converge 
avec un taux quadratique, que lorsque la séquence de pas {ak}:>0 converge vers (l’unité)[19]. 

L’itération de Newton avec recherche linéaire se fait comme suit, 


dy =-V'f(rx) lg, (1.45) 
et 
Tk+1 = Tk + ax dy, (1.46) 


où, le pas ax est déterminée en utilisant une technique de recherche linéaire exacte ou inexacte. Le 
théorème suivant indique la convergence globale de l’algorithme de Newton avec la recherche linéaire 
exacte. 


Théoreme 8. .//0] 
Soit f:R°+HR deux fois continüment différentiable sur un ensemble convexe ouvert Q € R”. Supposons 
que Vro € R”, il existe une constante p > 0 telle que f(x) satisfasse 


vTV?f(x)v>plvul?, VoeR",xEe L(xo) (1.47) 
où, L(xo) = {x : f(x) < f(xo)} est l’ensemble de niveaux correspondant. 


Alors la séquence {xx}x>0 générée par l’Algorithme de Newton avec recherche linéaire exacte satisfait les 
résultats suivantes: 


(i) Si la séquence {xx} est finie, alors V f(xx) — 0 pour un certain k. 


(ii) Si la séquence {xx} est infinie, alors {xx} converge vers l'unique minimum x* de f. 
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Maintenant, étudions la convergence de la méthode de Newton avec la recherche linéaire inexacte. Si 
la recherche linéaire de Wolfe faible est appliquée, alors il s’en suit que 


far) — f(rx + axdrx) > Mk || dx |? cos? < dy, —gr >, (1.48) 


où, 7% est une constante indépendante de k. 
Alors, la convergence globale de la méthode de Newton avec les condition de la recherche linéaire inexacte, 
est prouvée dans le théorème suivant: 


Théoreme 9. .//9] 

Soit f:R'+HR deux fois continüment différentiable sur un ensemble convexe ouvert A € R”. Supposons 
que Vxo € R”, il existe une constante p > 0 telle que f(x) satisfasse la condition (1.47) sur l’ensemble 
de niveau L(xo). 

Si la recherche linéaire satisfait (1.48), alors la séquence {xr}r>0 générée par l’Algorithme de Newton 
avec une recherche linéaire inexacte satisfait 


lim || gx ||= 0, (1:49) 
kk 00 


de plus {xx} converge vers l’unique minimum x* de la fonction f. 


Remarque 6. .//9] 


Nous constatons que 
1. l’avantage principale de la méthode de Newton est qu’elle bénéficie d’une convergence quadratique 


2. La méthode de Newton est très bien adaptée aux problèmes de faible dimension, pour lesquels il est 
facile de calculer la matrice hessienne et son inverse. Par contre, pour les problèmes de grande 
taille, le calcul de la matrice hessienne et son inverse peut s'avérer complexe et coûteux, de plus les 
problèmes de convergence peuvent être plus fréquents. 


3. Présente une certains sensibilité aux conditions initiales, puisque lorsque le choix initial est éloigné 
de la solution, la méthode de Newton peut soit diverger, soit converger vers un autre point (pas un 
minimum: maximum ou point selle ). 


Ceci conduit à conclure que la méthode de Newton, ne génère pas généralement une suite qui converge 
vers le minimum. Cependant, sous certaines conditions (Hessien définie positif, le point initial suffisam- 
ment proche de la solution optimale,...), elle devient très intéressante et converge rapidement avec un 
taux de convergence quadratique. 


La méthode Quasi-Newton est une amélioration de la méthode de Newton qui vise à surmonter certains 
de ses inconvénients. Cette méthode s'inspire de la méthode de Newton, mais sans avoir besoin de calculer 
la matrice hessienne ou son inverse, l’idée est donc de remplacer l’ itération de la méthode de Newton par 


Tk+1 = Tr — QxBrgr, k > 0, (1.50) 


où, ax est le pas de recherche choisis à l’aide des conditions de recherche linéaire, le long de la direction 

dx = —BKxgx, By est une approximation symétrique définie positif de l’inverse de la matrice Hessienne. 
L'objectif principale est donc de trouver une bonne suite de matrices B%, facile à construire qui 

converge rapidement vers des approximations précises de l’inverse du Hessien. 

Prenons f € C(R”) et faisons un développement de V f(x) au voisinage de x}, 


V f(x) Vice) + V?f{æx)(e — 2x) + o(|| & — æ4 ||) 
V fax) + V°f(ax)(x — x) 


à 


ou encore 
VE fr) TV Fe) — Vf(e)] & 2 — 2x 


Les approximations sons exacts si f est une la fonction quadratique. En particulier avec x = 2341 et si 
By est une bonne approximation de l'inverse du Hessien V? f(x) !, alors 


Be[V (tx) — Vf(ax)] & ze — Tr 
Nous pouvons imposer que Bz4+1 satisfasse exactement cette équation, donc 


Brh[Vf(tr#1) — Vf(ax)] = zr+1 — 2 (1.51) 
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1.5. La méthode de Newton 


cette équation s’appelle l’équation de la sécante [59]. 
À l'étape k, la mise à jour de la matrice d’approximation se fait de manière simple à l’aide de la formule 
suivante: 


Br = Br + D, 


où, Dz est une matrice de correction, calculée de telle manière qu’elle intègre de manière optimale les 
nouvelles informations fournies par æx31 et V(æxx11), de telle sorte que Bz}1 satisfasse la condition 
donnée par (1.51). En se basant sur ce concept, on peut conclure que les méthodes de Quasi-Newton se 
distinguent les unes des autres, en fonction de la définition de la matrice D4. 
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Chapitre 2 E 


Un nouvel algorithme hybride de 
gradient conjugué basé sur la 
direction de Newton pour 


l'optimisation sans contrainte 


Introduction 
Dans cette étude, nous considérons les problèmes d’optimisation sans contrainte, formulés comme suit 


min f(x), (2.1) 


où, f: R° + R est une fonction continûment différentiable et son gradient est noté g(x) = Vf(x). Les 
techniques numériques pour résoudre (4.1) sont itératives, c’est-à-dire qu’à partir d’un vecteur initial 
approprié xo € R”, les itérations sont générées par la relation de récurrence suivante 


Th+1 = Tr + axdx, k > 0, (2.2) 


où, a, est la taille du pas déterminée à l’aide d’une technique de recherche linéaire exacte/inexacte et dy, 
est la direction de recherche, supposée satisfaire la propriété de descente 


de 0 FEU 
ou la condition de descente suffisante 
géde <—C|al, k>0, C>0. 


La taille du pas ax, est généralement choisie pour satisfaire la célèbre recherche linéaire inexacte de Wolfe 
forte suivante [51, 52] 


far + orxdr) < f(xr) + 6axgT dx (2.3) 
lg(ax + axdx)T dy| < — 09} dr, 


où,0<ô<ao<i. 
En fonction du calcul de la direction de recherche, il existe plusieurs méthodes pour résoudre (4.1). 


Dans cette étude nous nous intéressons à la méthode de Newton et aux méthodes du gradient conjugué, 
la direction de recherche de la méthode de Newton est calculée comme suit 


dx = —V°?f(tex1) gr41, (2.5) 
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2.1. La nouvelle méthode hybride du gradient conjugué 


avec V? f(xx11) est la matrice hessienne de f. 

La méthode de Newton utilise l'information de la dérivée seconde (matrice hessienne), pour mettre à jour 
la direction de recherche dx, ce qui lui permet d’obtenir un taux de convergence quadratique, mais en 
pratique, surtout lorsque n est grand, les méthodes qui ne nécessitent pas d'évaluation de la hessienne 
sont préférées à celles qui en ont besoin [11]. 

La méthode du gradient conjugué ne nécessite pas beaucoup d’espace de stockage par rapport à d’autres 
méthodes, car elle n’a besoin que de l’information sur la dérivée première, ce qui la rend très pratique 
pour résoudre des problèmes d'optimisation sans contrainte à grande échelle [43], où 


do = —go;  dr+1 = —gx+1 + Brdr. (2.6) 


Selon le choix du paramètre fx € R, connu sous le nom de paramètre du gradient conjugué, il existe 
plusieurs algorithmes de gradient conjugué différents. Dans ce qui suit, nous rappelons quelques formules 
célèbres pour ce paramètre, ainsi 


T 
D EEE, (HS - Hestenes et Stiefel [31]), 
dé Uk 
2 
oo — er (FR - Fletcher et Reeves [23]), 
9% 
ki Yr 
BPRP = Ta E° (PRP - Polak et Ribiére [15, 46]), 
9% 
2 
“ _ Isa 0 (CD - conjugate descent [24]), 
—dT gr 
ki Yr 
LS — + , (LS - Liu et Storey [10]), 
dl 
DY Î 9+1 |? (DY - Dai 
È = 7 —-, - Dai et Yuan{[15]), 
dy, Uk 
T 
DE = Six Que © #8) (DL - Dai et Liao [16]). 
dy Vr 
k 
où, ||. || est la norme euclidienne, t > 0, yx = gx+1 — gx et sx = axdg. 


De nombreux chercheurs ont essayé de concevoir de nouvelles méthodes, basées sur des techniques 
hybrides, qui sont considérées comme plus efficaces que les méthodes originales, car elles visent à intégrer 
les points forts et les bonnes performances des méthodes à combiner. Plusieurs méthodes hybrides ont 
donc été proposées, par exemple, Xu et Kong [51] ont proposé deux méthodes hybrides, la première étant 
une combinaison linéaire entre les méthodes de gradient conjugué DY et HS et la seconde entre FR et PRP. 
Djordjevic [19] a proposé une méthode hybride de gradient conjugué, en utilisant la combinaison convexe 
des méthodes FR et PRP, où la direction de recherche satisfait la condition de conjugaison. Andrai 
[6] a présenté une autre méthode hybride de gradient conjugué avec By calculé comme une combinaison 
convexe des méthodes DY et HS, La particularité de cette méthode hybride, est que la direction de 
recherche représente la direction de Newton et qu’elle surpasse de nombreuses autres méthodes de gradient 
conjugué. Cette idée à inspiré de nombreux chercheurs pour concevoir de nouvelles méthodes hybrides, 
voir [37, 39, 21]. 

Dans ce travail, nous visons à tirer parti de certaines propriétés souhaitables des algorithmes du 
gradient conjugué et de Newton tout en évitant leurs inconvénients, en intégrant la direction de Newton 
avec la direction du gradient conjugué. Pour ce faire, motivés par l’idée d’Andrai[6], nous proposons de 
combiner les direction de gradient conjugué DY et DL, sous la forme d’une combinaison convexe, pour 
créer une nouvelle direction hybride basée sur la direction de Newton. 

l’algorithme vise à atteindre numériquement la convergence quadratique de la méthode de Newton, 
sans avoir besoin d'évaluer ou stoker la matrice Hessienne, tout en conservant certaines bonnes propriétés 
de l’algorithme de gradient conjugué, telles que ses avantages computationnels, sa capacité de résoudre 
des problèmes à grand échelles et sa convergence globale. 


2.1 La nouvelle méthode hybride du gradient conjugué 


Dans cette section, nous présentons notre méthode hybride de gradient conjugué, comme une combinaison 
convexe des algorithmes DY et DL en définissant la direction de recherche comme suit 


do = go, dei = —grr1 + 8677 dp, (2.7) 
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2.1. La nouvelle méthode hybride du gradient conjugué 


où 
DEF PES 0 PP GO, (2.8) 


On peut donc écrire 
do=—go, de+1 = —gr+1 + (1 — 6x) BPTdy + 6x BR * du, (2.9) 


où dx € [0,1]. Si 6 — 0, alors BPYPE = BDE et si 6, = 1, alors BPYPE — BPY, En revanche, si 
0 < 6x < 1 alors BPYPE est la combinaison convexe entre BPY et BP£. 


Supposons que V? f(x)! existe à chaque point itératif pour la fonction objective f. 
L'objectif principal de cet algorithme, est d'approcher numériquement le comportement de convergence 
quadratique, observée dans la méthode de Newton, tout en conservant certaines caractéristiques essen- 
tielles de l’algorithme de gradient conjugué. Pour ce faire, nous incorporons la direction de Newton avec 
la direction du gradient conjugué, par calculer le scalaire 64 de sorte que notre direction de recherche 
donnée par (2.9) soit égale à la direction de Newton. 


—ge+1 + (1 6k)86 de + 606" dr = —V? far) gr. (2.10) 
Cette idée est similaire à celle d’Andrai, voir [6]. 
En multipliant les deux côtés de l’équation (2.10) par sT V?f(xx+1) à partir de la gauche, nous obtenons, 
8 VE f(@r+i)gee + (1 — 6 )B 86 V° f(ar+1)dr + GB sk V°F(tr+1)dr = —8£ gr. (2.11) 
Supposons que la paire (s4,yx) satisfasse à la condition de sécante, 
VE f(ak1)8r = Ye, 
qui s'écrit 
se V' (tr) = VE. 
Alors (2.11) devient 
y gk+i + (1 — 6) BE ue de + ORBR TUE de = — 86 k+1. 


Après avoir effectué quelques calculs algébriques, nous obtenons 


+. — ST gr+1 + YE gr41 — BP yT dr 


(2.12) 
(BE + BE )yE dr 


En remplaçant les formules des BPY et BP£ dans (2.12), nous obtenons 


Le T T T 
— 87% 9k+1 + VE — gr. + 191158 
ns ke 9k+1 TUE k+1 — JrriVk Jk+1$K (2.13) 


(— 9941 — 9x) + t9818k+ || 9k+1 |? 


En poursuivant les simplifications, nous parvenons à l’expression suivante 


—ST gh+1 + ty risk 
ôg — 7 e ;. : (2.14) 
—Qr+19k41 + 9k419k + É9g418kt Î gk+1 || 


ce qui donne 


T = 
Re 8% gk+1(t — 1) (2.15) 


91 (9r + tk)" 


Il est clair que, bien que nous ayons calculé le scalaire 64 de sorte que la direction (2.9) soit la direction 
de Newton, notre algorithme ne nécessite pas de calculer ou de stocker la dérivée seconde (la matrice 
hessienne), requise par la méthode classique de Newton, et ce en raison de l’utilisation de l’équation de 
la sécante. 


Nous présentons maintenant notre algorithme DYDL, qui présente des caractéristiques intéressantes 
de l’algorithme du gradient conjugué et de l’algorithme de Newton. 


Algorithme DYDL 
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Etape 0: Choisir le point initial xo € R,e>0,t>1. 

Calculer fo — f(xo) et go = V f(xo). 

Définir do = —go, l'estimation initiale ao = TI: Soit 4 —0. 

Etape 1: Tester un critère pour arrêter les itérations, c’est-à-dire si || g4 [< €, alors arrêter. Sinon, 
passer à l’étape 2. 

Etape 2: Calculer la taille de pas az en utilisant les conditions de strong Wolfe (2.3), (2.4). 

Etape 3: Mettre à jour la prochaine itération par æx31 = 2x + axdg. Calculer gx71 = Vf(xx+1), 
Ur = Jk+1 — 9k Eb Sx = Lxr1 — Tr. 

Etape 4: Si g},1(9x + tsx) = 0, alors 6 = 0, sinon calculer 6; comme dans (2.15). 

Etape 5: Si 6 < O0, alors calculer 8PY*PE = BPL, 

Si.08 >'1l alors calculer HPTPE SEPT, 


Si 0 < 6% < 1, alors calculer 8PYP£ comme dans (2.8). 


Etape 6: Calculer dx+1 = —gx+1 + DPPPES. Définir la valeur initiale az = ax-_1 ll, 


Etape 7: Soit k = k +1, Revenir à l'étape 1. 


Remarque 7. Si AT — ou Ne M — Ce alors dans ces deur cas, on se se réfère à [16] et 


[15]. 
Les deux théorèmes suivants confirment que les conditions de descente et de descente suffisante sont 
satisfaites. 


Théoreme 10. . 

Soit 8, donné par (2.15) avec 0 < 64 < 1. Supposons que t > 1 dans (2.15) et que ax dans l’algorithme 
DYDL est déterminé par la règle de Wolfe forte (2.3), (2.4). 

Alors la direction définie par (2.9) est une direction de descente, (i.e. gl dx < 0.). 


Démonstration 1. . 

La preuve se fait par ee 

Pour k=0 : 96 do = = —96 go = — || go |?< 0. 

Supposons que gT dx < 0 est satisfait pour k > 1 et montrons qu'il est satisfait pour k + 1. 
En multipliant (2.9) par gxk+1, on trouve 


ga dR+1 = — {|| gen |? HÜL— 68) Po ET “ir BE grid (2.16) 
En remplaçant les formules des Der el BP? dans (2.16), nous obtenons 


T 2 gi (ve EH tsx) T ] 9k+1 |? Tr 
Jk+1dk+1 = — || gk+1 | +(1 — Ôx) dr 9k+1dk + Ôk Tan 9k+1dk; (2.17) 
k Uk Uk 


sachant que yx = ÿx+1 — gk, la relation (2.17) devient 


5 gér1((gr+1 — 9e) — 8e) 
x) dE yr b dE yr 


T 
Gksidkti = — |} gx |? +(1 
En simplifiant les calculs, nous arrivons à 


Jhs19k+1  k19k RSR p 
dE yk 


guides = — {|| gxr1 ||? + JR 1 dr 


T T 
ü Jx+19k+1 — Jx+19k — tghysk gd. dde IL 9x1 |? à 
dE UE dk gi ? 


En poursuivant les simplifications, nous obtenons 


12 il 9k+1 |? —g{i19% a tgé+1k 7 À 6 | ge+1 |? 


T 
Jr dk+1 = ] 9k+1 dT y k+10k — Nu ? guide 


T T 2 
— k —t Sk . 
j 9x+19 Ih+1 dde 64 | 9x4 || Tide, 


dE Ur jé dE ur 6 
ce qui donne 
T : 2 | 9k+1 |? —g{19% = EE 18R T 
Gerideri = — | ge || ri Jk+1dk 
& Vk 
T T 
Jg+19% + 19k4+18R 
Le GR TT (2.18) 


dE yx 
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Nous remplaçons 0x dans la relation (2.18) par (2.15), alors nous obtenons 


T 
T 2 g%Hhl?7r Jk+1(9x +isx) 7 

Jrradkri = — || grey 7 + gr r1 de TN 9! 
k+1 + y k+1 y k+1 ( d PE 


D'après (2.15) nous avons 
91 (9x + sx) _ 1 
sk gkritt—1)  ôk” 


alors 
t—1)s; 
gkr1 (9x +tsx) = Pet 


Par conséquent, (2.19) devient 


2 + I ge+1 | (—1)s{ gen 7 


T _ 
Jeride+1 = — || 941 ru gRidk = 7 He ride + (1 dr 9k+1 


Puisque s,=az;dx, alors 
(— 1)ax(dé gr)? _ (É—1)S6 gr 
dE Ur dE ur 


En utilisant la recherche linéaire de Wolfe forte (2.4), nous obtenons 


due = g(r + ardx) de — gx de > —(1— 0)g$ dr > 0. 
Comme t > 1 et puisque ax > 0, dTyx > 0 et d’après (2.21) nous concluons que 


(—1)s£ ge 7 
= — dx > 0. 
dTyr 9k+1 
Sachant que _ > 1, et d’après (2.23) ceci donne 


Œ—1)s{ gr (£ — 1)skget 7 
dT yr 9x1 > dTyr k+14k) 


en multipliant la relation (2.24) par (-), nous obtenons 


CC Ds£geti or  — 
dTyr T1 dT ur ji 


en ajoutant quelques termes aux deux cotés de l’inégalité (2.25), nous obtenons 


IL 9%+1 |? CE — 1)5% gx Lg+1 
— {gx [Ê+ T K+1dk — T — grridr + (t—1) + +1 dR 
de Uk Ok dE yr Tyk 
IL gx+1 (—1)S6gk+1 ST gkH1 T 
<< — |] ge + gr i de rsidk +(t—1) riidk. 
dun Eye + dur + 
Par conséquent, (2.20) devient 
14 2 ] 9k+1 |? T (E—1)sT gr+1 gT Sk9k+1 T 
dun 2 fon fe ee, A RER rat 
Jk+1dk+1 Î 9x4 || FAT Jk+1dk FAT Jkridr + (t—1) ue Ca 


après calcules 


IL gx+1 |? 
Jkiidkr < — || 9er |? FT grid; 
k Vk 


ce qui donne 


T 2 
d < —(1— À 
Jk+14k+1 ( dTyx ) || ge+ | 
puisque dE ur > 0 et dt L9r < 0, on a alors 
gr dr = dE yr + dé gr < dE yr, 
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(2.20) 


(2.21) 


(2.22) 


(2.23) 


(2.24) 


(2.25) 


(2.26) 


(2.27) 
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ainsi 
T d d? kid 1 
g k < dxYk —> < 1, 
k+1 k dy 
donc : 
Jk+1 dk 
—(1 —- < 0. 
dE ur ) 
Par conséquent (2.27), devient 
T 
9x dk 
hridkt1 < —(1 — un ) | ge [F< 0. (2.28) 
k Uk 


Ce qui confirme que, g? dx < 0. 


Théoreme 11. . 

Soit Ôx donné par (2.15) avec 0 < 0x < 1. Supposons que t > 1 dans (2.15) et que ax dans l'algorithme 
DYDL est déterminé par la règle de Wolfe forte (2.3), (2.4). 

Alors il existe une constante C > 0 telle que la condition de descente suffisante 


gkgider1 < —C || gx |? (2.29) 
se vérifie. 


Démonstration 2. . 
En multipliant (2.9) par gk+1, on trouve 


guudesi = — || ges |? +(1— &)BP lg dr + OR BPY gd. (2.30) 


En remplaçant les formules des er el per dans (2.30), nous obtenons 


T 2 give = tsx) T ] 9k+1 1? TP 
Jk+1dk+1 = — || gk+1 | +(1 — Ôx) F 9k+1dk + Ôk— pm ——ÿk+1dk; (2.31) 
dy yr dE Uk 
On reprend le même calcules que nous avons vu dans la démonstration du théorème 10, on obtient 
T 2 , | 9k+1 |? T 
Geridk+1 <  — |] 9er | +75 —grridr, (2.32) 
dé Uk 
ainsi 
|g%. 1dk| 
Gide < — |} ges [+] gen (2.33) 
dé yr| 
D'après la deutième condition de Wolfe forte (2.4), ü en résulte 
9 1del < 09 dr (2.34) 
c’est à dire 
C9k dr < ÿkri1dk < —0 9 dr. 
Alors 


dur = Jsr1dr — 9% de > —(1— o)gx dr > 0 


ce qui donne 
1 1 


< : 
dur — —(1—0)g} dr 


(2.35) 


De (2.34) et (2.35), ü résulte 
|g4 1 dKl (4 
dur 7 10 


Ainsi (2.33) devient 


o 
hyideri < — || gxh |? HS gx |? 
alors 
dédie < (1-5 —) Ian 
Li “ 1-0 
Il suffit de prendre C= (1-2) >0, car0 <o < +. 


Par conséquent, la condition de descente suffisante est vérifiée. 
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2.2 Les propriétés de convergence de notre méthode 


Les hypothèses essentielles (voir [7]) suivantes sur la fonction objective sont nécessaires pour établir la 
convergence globale de notre méthode hybride (DYDL). 


H1. L'ensemble de niveaux H = {x € R"/f(x) < f(xo)} est borné, où x est le vecteur initial. 


H2. Dans un certain voisinage Q de #, la fonction objective f est continument différentiable, son 
gradient est continu Lipschitz, par conséquent 2L > 0 tel que 


gtx) —g(y)I<LIx-yl Vryeg. (2.36) 


Ces hypothèses impliquent que, 37 > 0 tel que 


gtx) 1<7. VreH (2.37) 
Le lemme 1 de Zoutendijk [60] et le Lemme 2 vont utilisé pour démontrer le théorème de convergence ci 
après. 
Lemme 1. . 


Supposons que les hypothèses H1 et H2 ci-dessus, soient vérifiés. 

Considérons toute itération de la forme (2.2), où dy satisfait à la condition de descente gT dx < 0 et ax 
satisfait à la recherche linéaire inexacte de Wolfe ou à sa version forte. 
Alors on a 


T'q 2 
D» es < +00 (2.38) 
2 || 


Lemme 2. /59]. 
Supposons que les hypothèses H1 et H2 ci-dessus se vérifient. Si dx est une direction de descente et que 
la longueur de pas ax satisfait 
ride > ogkdk, 6 <l, (2.39) 
alors 
1— 0 |d£ gx| 
_ L'I&l 


Qk (2.40) 
Ceci montre que az; obtenu dans la méthode (DYDL) n’est pas égal à zéro, c’est-à-dire qu’il existe 
une constante À > 0 telle que 


ax > À, Vk>0. (2.41) 
Le théorème suivant garantit la convergence globale. 


Théoreme 12. . 

Supposons que les hypothèses H1, H2 soient vérifiés. 

Soit les séquences {xx} générées par notre algorithme (DYDL). 

Alors 
lim inf || gx [= 0. (2.42) 
k-00 


Démonstration 3. . 
On va démontrer ce théorème en utilisant un raisonnement par l'absurde. 
Supposons que la relation (2.42) n’est pas vérifié. Il existe alors une constante r > 0 telle que 


gx > r. (2.43) 
D'après (2.8), nous avons 
BE < A) "+186" |, (2.44) 
comme 0 < ô% < 1, alors 
BE < 8 *1+18671, (2.45) 


En remplaçant les formules des 0 el lee nous obtenons 


|9E 41 (ur —isx)| || gx+1 ||? 
JBPYDL| < ! (2.46) 
dE ur | dE ur | 
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En simplifiant les calculs, nous arrivons à 


j82Y DL] < \gk ri vel + t\gr15x)l ] 9k+1 |? (2.47) 
à _ dE yk| dE yr| 


Sachant que |géivl <]| gk+1 II ve || ef lgéaurl <1 gn+1 I sx ||, nous obtenons alors 


BP < [gun TI gr 1 #6 M gun UT sx 1 gx 7 (2.48) 
= dx yrl df vrl 


D'après la deuxième condition de Woife forte (2.4) et la condition de descente suffisante (2.29), nous 
avons 
dur > —(1— o)gx de > (1— 0)C || 98 | 


D'après (2.43), nous obtenons, 
dTyr > (1— o)Cr?, 


donc i 1 
< : 2.49 
dyx  (1-o)Cr? De 
Sachant que yx = gk+1 — gx et 8x = Tky1 — Tr, nous obtenons d’après (2.36), 
lue IST se 1< D, (2.50) 
où, D = max{| à — y | /x,y € H} est le diamètre de l’ensemble de niveaux H. 
D'après (2.37), (2.49) et (2.50) la relation (2.48) devient, 
BpYpe) < D +iD . Ÿ __ ED +hyD + Ÿ LE 
. — (—ao)Cr?  (1—ao)Cr?  (1—o)Cr?  ” 
avec E est un constant. 
Par conséquent la direction (dans (2.9)) devient, 
I due IS ge+i  H86 7 PET de IS 9 +E | de ||. (2.51) 
Sachant que sx = axdx donc || dy ||= [el et d’après (2.41), nous obtenons 
s D 
Mdr ler+Ell<, 4 p? La 
ŒE À 
avec M est un constant. 
Ce qui donne alors 
1 1 
Idea 1 M 
Donc 
Dre | 
ln SM 
Par conséquent, 
1 
SN ——— = +oo. (2.52) 
2 
22 Ta | 
De plus, à partir de (2.38), (2.43) et (2.29), il en résulte 
1 C? || gx ll (gx dx)” 
Cr — < < o < +0, (2.53) 
ZTar <2 Tale 2 a lé 


alors 


1 
ÿ < +00. 
2 
ZTal 


Ceci est en contradiction avec (2.52), donc nous avons prouvé (77). 
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2.3 Expérience numérique 


Dans cette section, nous allons discuter des expériences numériques de notre algorithme DYDL en les 
comparant à celles des algorithmes DY [15] et DL [16]. Pour cela, nous avons 80 problèmes d'optimisation 
sans contrainte tirés de [8], chaque problème étant testé pour les variables suivantes : 2, 50, 100, 200, 
500, 1000, 2000, 3000, 5000 et 10000. Tous les codes sont compilés sur un PC ayant les spécifications 
suivantes Intel(R) Core(TM) i5-3210M CPU @ 2.50GHz 2.50 GHz, 4,00 Go RAM. 

Nous présentons les comparaisons numériques avec les autres algorithmes, y compris les profils de 
performance, donnés par Dolan et Moré [22], dans les conditions de recherche de la ligne de Wolfe forte 
(2.3), (2.4) avec 8 = 0.0001 et o = 0.1, et nous utilisons le critère d’arrêt || gx [ls < 1077, pour tous les 
algorithmes. 

Tout d’abord, nous choisissons la meilleure valeur du paramètre t, Comme le montrent les figures 2.1 
et 2.2. Notre algorithme DYDL avec t — 300 est plus performant que t = 2 et t — 100 en termes de 
temps CPU et de nombre d’itérations. 
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Figure 2.1: Profil de performance basé sur le temps CPU pour choisir la meilleur t de l’algorithme DYDL 
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- = - DYDL (t=300) 
DYDL (t=2) 
- - - DYDL (t=100) 


Figure 2.2: Profil de performance basé sur le nombre d’ itération pour choisir la meilleur t de l'algorithme 
DYDL 
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Notons que, concernant la méthode (DL) proposée par Dai et Liao [16], les résultats numériques ont 
été appliqués pour t = 1, nous comparons donc l’algorithme DYDL pour t = 300 avec l’algorithme (DL) 
pour t = 1 et t = 300. 


Les figures 2.3, 2.4 et 2.5 montrent le profil de performance basé sur le temps CPU, le nombre 
d’itérations et l’évaluations du gradient, respectivement. Toutes les figures indiquent que les performances 
de l’algorithme DYDL pour t—300 sont nettement meilleures que celles des algorithmes DY, DL(t=—1) et 
DL(t=—300). 
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Figure 2.4 Profil de performance basé sur le nombre d’itération 
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0.3 - # - DYDL (t-300) 1 
DY 
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0 L L L L L L 
0 5 10 15 20 25 30 


Figure 2.5: Profil de performance pour l’évaluations de gradients 


Comme mentionné dans la section 2.1, nous avons développé une nouvelle méthode hybride de gradient 
conjugué en accord avec la méthode de Newton, cette nouvelle algorithme vise à atteindre numériquement 
la convergence quadratique de la méthode de Newton sans avoir besoin d'évaluer ou stoker la matrice 
Hessienne, tout en conservant certaines bonnes propriétés de l’algorithme de gradient conjugué. Le 
chapitre 5 de notre travail est consacré à la présentation d’un nouveau test numérique qui évalue si 
notre algorithme DYDL approche la convergence quadratique observée dans la méthode de Newton. Ce 
test repose sur l’analyse des rapports d’erreur entre deux itérations successives, et permet de visualiser 
graphiquement, comment ces rapports d’erreur indiquent la présence d’un convergence quadratique. 
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Chapitre 3 E 


Combinaison convexe de deux 


méthodes de gradient conjugué basées 


sur l'algorithme de Newton 


Introduction 


Dans ce travail, nous nous intéressons à la minimisation d’une fonction à n variables, n € N*. Consid- 
érons le problème d’optimisation non linéaire sans contrainte, 


min f(x), (3.1) 


où, f: R°+-R est une fonction non linéaire lisse, son gradient existe est bien définie par g = Vf(x). 


Les mathématiciens ont développé de nombreuses techniques numériques pour résoudre (3.1), parmi 
lesquelles les méthodes de la descente la plus rapide [35, 53], les méthodes de Newton [14, 11], les méthodes 
du gradient conjugué [1, 56] [31] et les méthodes de quasi-Newton [55, 36]. 

La base de toutes ces méthodes consiste, à partir d’un vecteur initial approprié x0 € R” à générer une 
séquence {xx}K>0, comme suit 

Th+1 = Tr + axdx, k > 0, (3.2) 


où, az est la taille du pas déterminée à l’aide d’une règle de recherche linéaire, et dy est la direction de 
recherche qui identifie les différentes méthodes de résolution du problème (3.1). 
La direction de recherche de la méthode de Newton est calculée comme suit 


dry = —V°f(tr41) gr+1, (3.3) 


où, V?f(xx+1) est la matrice Hessienne de f. 


Lorsque le point initial est proche de la solution, la méthode de Newton offre un taux de convergence 
quadratique, car elle utilise l’information de la dérivée seconde pour générer la direction de recherche. 
Cependant, la méthode de Newton, est efficace pour les problèmes de petite taille et ne convient pas 
aux problèmes à grande échelle, en termes de stockage et de coût de calcul de l'évaluation de la matrice 
hessienne [11]. 

La méthode du gradient conjugué est beaucoup plus utile et pratique pour résoudre (3.1), en particulier 
pour les cas à grande échelle, en raison de sa simplicité et de ses faibles besoins en mémoire, car elle n’utilise 
que l'information de la dérivée première [13]. La méthode du gradient conjugué possède la propriété de 
convergence globale, ce qui lui permet de converger vers la solution optimale, quel que soit le vecteur de 
départ choisi. Sa direction de la recherche est donnée comme suit 


do = —go, dr+1 = —9x+1 + Brdk, (3.4) 
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3.1. Algorithme de gradient conjugué hybride 


En fonction du choix du paramètre By € R, appelé paramètre du gradient conjugué, il existe plusieurs 
algorithmes de gradient conjugué différents. Dans ce qui suit, nous allons mentionner quelques formules 
célèbres pour ce paramètre. 


T 
HS = PREUR (HS - Hestenes et Stiefel [31]), 
dE yk 
2 
DR — gen (FR - Fletcher and Reeves [23]), 
I 9x 11? 
CEE 
BPRP = TE ° (PRP - Polak et Ribére [15, 46]), 
gr 
2 
CD = rl (CD - conjugate descent [24]), 
k 
Ji Vr 
LS ge (LS - Liu et Storey [40]), 
k 
DY Î gr+i |? (DY - Dai et Y 15 
's nt - Dai et Yuan{[15]), 
& Vk 
T Îlgr+1 | 
Gk+1(9k41 — Tir 9) 
ME = PRE I (WyYL- Wei, Yao et Liu [61, 33] ) 


I gx |? 


Les algorithmes de gradient conjugué sont classés en trois grandes catégories à savoir, les méthodes clas- 
siques, les méthodes modifiées et les méthodes hybrides. 

Les méthodes (HS),( FR), (PRP), (CD), (LS), (DY }, sont connues comme des méthodes classiques en 
raison de leur simplicité. 

La méthode du gradient conjugué (WYL) a été proposée par Wei [61, 33], comme une version modifiée 
de la méthode classique PRP, afin de l’améliorer et de la rendre plus efficace. Cette méthode présente 
non seulement des expériences numériques intéressantes, mais elle satisfait également à la condition de 
descente suffisante et présente des propriétés de convergence globale. 


Les méthodes hybrides de gradient conjugué sont basées sur la combinaison des méthodes classiques 
ou modifiées afin de construire de nouvelles méthodes pratiques qui présentent les avantages des méth- 
odes à combiner. Ainsi, plusieurs méthodes hybrides sont suggérées, par exemple, Andrei [6] a proposé 
de combiner les méthodes du gradient conjugué (DY) et (HS), sous la forme d’une combinaison convexe 
et a distingué cette méthode en faisant en sorte que sa direction de recherche, soit la direction newtoni- 
enne, à l’aide de l’équation de la sécante, afin d'éviter l'évaluation de la matrice de Hessien. Motivés par 
l’idée d’Andrei [6], récemment Fanar N. Jardow et Ghada M. AI-Naemi [37], ainsi que Djordjevié [21], 
ont dérivé de nouvelles méthodes hybrides de gradient conjugué qui satisfont à la propriété de descente 
suffisante, de telle sorte que les directions de Newton sont employées. 


Inspirés du travail d’Andrei [6], nous proposons un nouvel algorithme hybride de gradient conjugué, qui 
relie les méthodes (WYL) et (CD), en se basant sur la direction de Newton afin de bénéficier des propriétés 
souhaitables des méthodes de gradient conjugué et newtoniennes tout en évitant leurs inconvénients. Plus 
précisément, notre objectif est de préserver les caractéristiques essentielles de l’algorithme de gradient 
conjugué, notamment sa simplicité, sa capacité à résoudre des problèmes à grande échelle et sa propriété 
de convergence globale. De plus, nous visons à atteindre numériquement la convergence quadratique 
observée dans la méthode de Newton, tout en évitant le calcul directe de la matrice Hessienne très 
coûteux et la sensibilité de sa convergence au vecteur de départ sélectionné. 


3.1 Algorithme de gradient conjugué hybride 


Dans cette section, nous décrivons notre nouvelle méthode de gradient conjugué pour les problèmes 
de D. à ; s Due À lcd 
d'optimisation sans contrainte à grande échelle, en calculant le paramètre 84, désigné dans par BF" 


comme une combinaison convexe entre GR et HT, c’est-à-dire 


een) Ra ne, (3.5) 


ul 


où, Vk € [O, 1]. 


La direction dz4 est donc donnée par 


do=-90, der = —ger + (1— Y%) 8 Ed + 80 Pdx. (3.6) 
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3.1. Algorithme de gradient conjugué hybride 


lcd | 
Si y = 0, alors PPV = GWYL et si y = 1, alors Bw#4 = BCD, D'autre part, si 0 < y < 1 alors 
Es est la combinaison convexe entre 80P et BWYL, 


Supposons que V?f(xx)! existe Vk > 0 pour la fonction objectif f. 

Comme nous le savons, la méthode de Newton a des propriétés de convergence quadratique, nous allons 
donc construire une nouvelle méthode hybride de gradient conjugué, en accord avec la méthode de 
Newton, dans le but d'atteindre numériquement le comportement de convergence quadratique observé 
dans la méthode de Newton, tout en conservant certaines bonnes propriétés de l’algorithme de gradient 
conjugué. Pour ce faire, inspirés par le travail d’Andrei [6], nous calculons le x dans (3.5) de manière 
à ce que notre direction de recherche, donnée par la relation (3.6), soit égale à la direction de Newton. 
C-à-d 

—ge+1 + (= )B de + 6 de = —V?f (tri) gr. (3.7) 


En multipliant les deux côtés de l'équation (3.7) par sTV?f(xx11) à partir de la gauche, on obtient 

SV f(axti)get + (1 — BE TE Vf(ar4i)de + BR 88 V? f(ax+1)dr = —5$ gr+1, 
En simplifiant les calcules, nous obtenant 

BR — BE )sR V f(axt)de + SE V° f(arai)gne1 — BE SE V?f(r+1)dr = 5% gx 
ainsi 

BR — BE )sx V° f(crr1)de = —5$ gRe1 + 86 V°f(akni)ger — BE sx V° f(xr+1)dr 
ce qui donne 


— —5 À ge + SE V'f(crr1)ger1 — BUY EST V? f(rxr1)de 
Re La BR )s4 V?2f(tr+1)dx 


(3.8) 


où, Sk — Tk+1 — Tk. 


Pour calculer 7x, nous devons obtenir la matrice hessienne de la fonction objectif, mais nous savons que, 
pour les problèmes à grande échelle, le calcul de la matrice hessienne est soit impossible, soit coûteux en 
pratique. Sachant cela, pour les algorithmes quasi-Newton, la matrice d’approximation B% de la matrice 
hessienne V? f(xz) est mise à jour de manière à ce que la nouvelle matrice B411 satisfasse l'équation de 
la sécante 

By1188 = Y. 
Ainsi, pour obtenir un algorithme de résolution de problèmes largement utilisé, nous supposons que la 
paire (sx, yx) satisfait l'équation sécante. 


VE f(tr41)8x = ÿr: 
c’est à dire 
SR VE f(tet) = VE. (3.9) 
En remplaçant la relation (3.9) dans (3.8), on obtient donc 


= — ST +1 + Ye Jke1 — BY Ty dr 
(—BPYE + BCP ut dy 


(3.10) 


Il est clair que nous avons construit une nouvelle méthode hybride de gradient conjugué conforme à la 
méthode de Newton, mais le processus itératif est simple et conçu pour résoudre des problèmes à grande 
échelle, car nous avons évité le coût de calcul associé à l'évaluation directe de la matrice hessienne, en 
utilisant l'équation sécante. 

Nous allons maintenant décrire notre algorithme, appelé "algorithme WYLCD" qui présente certaines 
bonnes caractéristiques à la fois de l’algorithme de gradient conjugué et de l’algorithme de Newton. 


Algorithme WYLCD 


Etape 0: Choisir le point initial xo € R”, e > 0. 


Calculer fo — f(xo) et go = V f(xo). 


Définir do = —go, l'estimation initiale ao = I Soit k —0. 


L’interrelation entre les algorithmes de gradient conjugué et ceux de Newton 31 


3.2. La condition de descente suffisante 


Etape 1: Tester un critère pour arrêter les itérations, c’est-à-dire si || gk [|< €, alors arrêter. Sinon, 
passer à l’étape 2. 
Etape 2: Calculer la taille de pas ax en utilisant les conditions de strong Wolfe Powel 


far + arxdx) < f(x) + 6axg} de (3.11) 
gésidel < olgx del (3.12) 


où,0<8<3,0<o<3. 
Etape 3: Mettre à jour la prochaine itération par æx31 = 2x + axdg. Calculer gx71 = Vf(xx+1), 


Uk = k+1 — 9 Eb Sk = Tri — TR. 
Etape 4: Si (—-BWYE + B°P\yl dy = 0, alors x — 0 , sinon calculer 7, comme dans (3.10). 


Etape 5: Si y < 0, alors calculer guuted 2 a 


Si 4 > 1, alors calculer prued = ee 


ytd | comme dans (3.5). 


lcd 
yen. 


Si 0 < 7x < 1, alors calculer 


+ ne. di 
Définir la valeur initiale ax = ax-1 ln el. 


Etape 6: Calculer dx41 = —gr+1 + BY 
Etape 7: Soit k = k +1, Revenir à l’étape 1. 


3.2 La condition de descente suffisante 


Le théoreme suivant confirme que notre nouvelle direction, donné par 3.6 satisfait la condition de descente 
suffisante. 


Théoreme 13. . 

Supposons que les séquences {gk}r>o et {dr}k>0, soient générées par l'algorithme "WYLCD". Supposons 
également que ax, soit déterminé 77 la recherche linéaire de strong Wolfe-Powell (3.11) et (3.12). 

Si o dans (3.12) vérifie 0 < o < À 5, alors la condition de descente suffisante, 


gkridk+1 < —C || ger1 ||? (3.13) 
est satisfait. 


Démonstration 4. . 
Si y = 0, alors pruted — BÜYL and si yx = 1, alors B} 
est déjà prouvée en [61, 33] et [2/] respectivement. 


Icd _ 
LV = BOD, la condition de descente suffisante 


Maintenant, nous prouvons la condition de descente suffisante dans le cas où 0 < 7x < 1. 
D'après la formule de re dans (3.5), nous avons 


lcd 
BRUT Em 1 + BE? | 


puisque 0 < y < 1, alors 
RÉPLE RSRES] (3.14) 


En remplacant les formules des ee et BCP dans la relation (3.14), nous obtenons 


2 | Ilgeill 
pied] < ] 9k+1 ] a xl lg 19e | 9k+1 |? (3 15) 
| 9x 1? | gEdul 
sachant que |gË,19k| <|| gk+1 [|| gx ||, alors la relation (3.15) devient, 
2 . Ilge+1l 
gone Mo FF + ea ge La .. 
| 9x 1? \gx dkl 
En simplifiant et en regroupant les || gx+1 ||, nous obtenons 
get, < 2 Lee LE, Los IF —. 
7 a? \gX dkl 
Ensuite, en multipliant l'inégalité (3.17) à partir des deux cotés par lg del, nous obtenons 
21 gen, r IL gx+1 or 
ge del ga del + I gidrl, (3.18) 
de La °F grdx| +7 
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3.2. La condition de descente suffisante 


en utilisant (3.12) il en résulte 


2 || gk+1 ||? I gx+1 1? 


lcd 
[8% *° gkridel = IE o|g k di Ie oran 7Isé dl 


ainsi 2 | É 
wylcd 9k+1 
BR grade < TE 0198 del + © || gk+1 |? (3.19) 


I gx | 


En multipliant (3.6) par gx+1 on trouve 


lcd 
géeiden = — || ge |? +86 gr dr. (3.20) 
alors - 
dk dr 
Jk+i à _ 1 + pivied Grid : (3.21) 
1 gx | 1 gk+1 |] 


Prouvons maintenant la propriété de descente de la direction dy par induction. Nous avons g7 di = — || 
1 [P, nous supposons que d;, i —1,2,...,k sont toutes des directions de descente (g7 d; < 0). 
D'après (3.19), il en résulte 


Æ 
wylc 9x dk 
Be" grid < —20 || gi ||? ” ER I ga+1 ||? (3-22) 
ainsi 
gk de wyle ge 
20 || gx+1 ||? TEE PL o | gr (PS Be" géride < —20 || gx+1 |? PE ER NE + | gx (7, (3.23) 
d’après (3.21) et (3.23) nous déduisons 
EN Ed Lo: (3.24) 
I gk+ | dr gk || 
Répéter ce processus 
Der dk-+1 1-9 9T dk 
2 — 07 
I ge+1 |] U gx || 
5 
144 
CU ee mr 
Î gi |] 
Fo 
< —1+20 +(20)(—1 20 +2 — ko) — 29? +o 
I 9x2 || 
2 3 gR-3dk-3 2 9 
< —1+20 —(20)° — (20)"(—-1 — 20 ro) FoMo) 26 +9 
ges |] 
3 4 ha dr 4 3 
< —1+20 — (20) + (20)° +(20)°(—-1 "| Œ +0) (20)° + (20) 
9k—4 
— 20° +a 
va 
à Jk—(k-1) dk (k- 
< 1420 — (20)2 + (20)8 — (20) +... — (20) 1(—1 ha. 
I 9e-(x-1) | 
— o(20)° +a(20)? — 20° + a 
T4 
< —1+20 — (20)? + (20)? — (20) +... + (20) 1 + (20) T F — 9(20)*-1 
g1 
— _ o(20)° + o(20)° — 20° + 0, (3.25) 
en utilisant gT dy = — || g1 ||?, l'inégalité (3.25) devient 
JR dh+1 3 k—1 2 4 k 
EE 1+1[(20 + (20)° +::.+ (20) ) — ((20)° + (20)° +--:+(20)")] 
k+1 


+ [(o+o(20) +... +0(20)" 2) — (20? + a(2a)° +. + a(2a)* 


L’interrelation entre les algorithmes de gradient conjugué et ceux de Newton 33 


3.3. 


Propriétés de convergence de notre méthode 


Donc 
JR dr 3 k—1 5 4 k 
Ton Fe < —1+1[(20 + (20) +:..+ (20) ) +((20)" + (20)* +--:+(20)")] 
k+1 
+ [(o+o(20)+...+ AE + (20° + (20) ++. + (20) *)] 
= —1+ + 20) + > 20)? 
j=1 j=0 
ainsi 
T k = 
Jk+1dk+1 < - 
< (20) +a Sd (20), 3.26 
lon na Du 60 
il en résulte 
k co 1 k—1 co j 
a) TP — 7 Tu 
>_ (20) < S (20) T= Go) et >_ (20) < >_ (0) = Go) 
j=0 j=0 j=0 j=0 


Par conséquent, l’inégalité (3.26) devient 


T 
Jr dk+1 1+0 
< (2 (3.27) 
[une 2 1-G0) 
en prenant 0 < o < +, alors 
1+0o 
kridkt1 < —(2— = C0)) I gr+1 [?< 0 (3.28) 


Ainsi, par induction, gl dx < 0 est valable pour tout k > 0. 


Nous Fo maintenant la condition de descente suffisante de dy. Si0 < © < à il suffit de prendre 
=: 1-2) où0<c<l. Ensuite, à partir de l’inégalité (3.28), on obtient la Conitan de descente 
suffisante 

JRridh+1 < —c | gx+1 | (3.29) 


3.3 Propriétés de convergence de notre méthode 


Les hypothèses essentielles [7] suivantes sur la fonction objective sont nécessaires pour établir la conver- 
gence globale de notre méthode hybride (WYLCD). 


H1. L'ensemble de niveaux H = {x € R"/f(x) < f(xo)} est borné, où x est le vecteur initial. 


H2. Dans un certain voisinage Q de #, la fonction objective f est continument différentiable, son 
gradient est continu Lipschitz, par conséquent 3 > 0 tel que 


I g(x) —g(y)I<tx-yl  Vryeg. (3.30) 


Ces hypothèses impliquent que, 3r > 0 tel que 
gx) IST. VreH (3.31) 


Les lemmes 3 et 4 vont utilisé pour démontrer le théorème de convergence ci après. 


Lemme 3. /15)}. 

Supposons que les hypothèses H1 et H2 mentionnées ci-dessus soient satisfaites, et considérons les méth- 
odes formulées par (3.2) et (3.4), où {dx} est une direction de descente et ax est calculé à l’aide de la 
recherche linéaire strong Wolfe-Powell. 


Si 
D T (3.32) 
k>0 

alors 
lim inf || gx [= 0. (3.33) 
kr00 
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3.3. Propriétés de convergence de notre méthode 


Lemme 4. /59]. 
Supposons que les hypothèses H1 et H2 ci-dessus se vérifient. Si dx est une direction de descente et que 
la longueur de pas ax satisfait 
ghridr > ogkdk, o<l, (3.34) 
alors 
1-0 [dT gl 
L'I& |? 


(07 (3.35) 


Selon le lemme 4 et les conditions (3.12), (4.24) et (3.31) nous en déduisons que az; obtenu dans le 
nouvel algorithme WYLCD n’est pas égal à zéro, ce qui signifie que p > 0 tel que 


ax >p, foral k&>0. (3.36) 


Théoreme 14. Supposons que les hypothèses H1 et H2 se vérifie. Soit la séquence {xx}x>0 générée par 
“l'algorithme WYLCD" proposé. Alors 


lim inf || gx [= 0. (3.37) 
k00 


Démonstration 5. On va démontrer ce théorème en utilisant un raisonnement par l'absurde. Supposons 
que la relation (3.37) n’est pas vérifié. Alors il existe r > 0 tel que 


I gx > r. (3.38) 
En utilisant (3.38) et (3.13) nous avons 
gx de > c|| a |°Z cr? (3.39) 
ainsi 
1 1 
Eh (3.40) 
— 9% gl dx — cr? 


Sachant que 8x = ty+1 — 2x, soit À = max{| x — y || /x,y € H} le diamètre de l’ensemble de niveau H 
c-à-d 
sx 1 A (3.41) 


D'après la définition de la direction dx (dans (3.5) et (3.6)), nous avons 


lcd 
I dei [SI ge 1 +188 CT de (| (342) 
En ce qui concerne la re de oi , il'existe trois cas. Si yx = 0, alors pau BI et si 
y = 1, alors py"d = BCD, Ces deux cas ont déjà été prouvés respectivement dans [61, 33] et [24]. 
D'après la formule de ne dans (3.5), nous avons 
lcd 
BTS AD) 1 + 18? 
puisque 0 < y < 1, alors 
lcd CD 
RU SIRET 141871 (3.43) 
En remplaçant les formules des os et B©P dans la relation (3.43), nous obtenons 
k 
2 : Ügk+ili T 
jpvvied| < ges + rl |9x+19k| | Î gr |? (3.44) 
I 9x |P | — 9% dr| 
sachant que |gË,19k| <|| gk+1 [|| gx ||, alors la relation (3.44) devient, 
2 , Ilgk+ill 
jpvvied| < 1 9x+1 | + al I ge+a [I] gx | | 1 9x+1 |? (3.45) 
1 9x |P \g£ dl 
En simplifiant et en regroupant les || gk+1 ||, nous obtenons 
2 . 2 : 2 
jupe ] 9k+1 ] Fe ] 9k+1 ] ; (3.46) 


_ xl \g dl 
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3.4. Les expériences numériques 


En utilisant (3.38), (4.77) et (3.31) la relation (3.46) devient 


wylcd F2 F2 
JE] Le = (3.47) 
avec, E est un constant positive. 
D'après (3.47) et (3.31), la relation (3.42) devient 
I dei IST+E || de ||. (3.48) 
Sachant que 54 = ax;dx, utilisant || dx ||— Iskll et à partir de (3.36) et (3.41), nous obtenons 
ak 
À 
emier+sl#ler, Er y 
d. gl 
@k P 
avec M est un constant positive. 
Ce qui donne 
1 1 
Ï dei | M 
Donc 
1 1 
> = 
ln 


Par conséquent 


ÿ a (3.49) 


ZT] 
En appliquant le lemme 3, on conclut que 

lim ênf || gx | 0 

k+ 00 


c’est une contradiction avec (3.38), donc nous avons prouvé (3.37). 


3.4 Les expériences numériques 


Dans cette section, nous allons décrire les résultats numériques du nouvel algorithme proposé (algorithme 
WYLCD). Pour évaluer l'efficacité de notre algorithme "WYLCD", nous l’avons testé par rapport aux al- 
gorithmes (WYL) [61, 33] et (CD) [21] à partir desquels il a été construit, en utilisant certains problèmes 
de test choisis dans [8]. Pour chaque fonction, nous avons réalisé des expériences numériques pour le 
nombre de variables 2 ...10 000. Dans les expériences numériques suivantes, tous les codes sont compilés 
sur un PC ayant les spécifications suivantes :Intel(R) Core(TM) i5-3210M CPU 2.50GHz 2.50 GHz, 4.00 
Go RAM, en utilisant le profil Dolan et Moré [22] comme outil d'évaluation. Tous les algorithmes utilisent 
les conditions de recherche de la ligne de Wolfe Powel forte avec les paramètres 8 = 0.0001 et o = 0.1 et 
se terminent lorsque || gx [x < 1076. 

Les figures 3.1, 3.2 et 3.3 représentent les performances de ces algorithmes en fonction des indicateurs 
suivants : temps CPU, nombre d’itérations, évaluations du gradient. Comme le montrent toutes les 
figures ci-dessus, le nouvel algorithme WYLCD est clairement supérieur aux autres algorithmes. 


Comme nous l’avons mentionné dans la section 3.1, nous avons construit un nouvel algorithme hybride 
de gradient conjugué basé sur la direction de Newton, dans le but d'approcher la convergence quadratique 
de la méthode de Newton du point de vue numérique et d’obtenir certaines caractéristiques essentielles de 
l’algorithme de gradient conjugué. Dans le chapitre 5, nous proposons un nouveau test numérique basé 
sur certaines problèmes de test choisies dans [8] avec différentes dimensions, pour étudier la convergence 
quadratique de notre méthode. 
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Figure 3.2: Profil de performance pour le nombre d’itération 
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Figure 3.3: Profil de performance pour l’évaluations de gradients 


L'’interrelation entre les algorithmes de gradient conjugué et ceux de Newton 


38 


Chapitre A E 


La relation entre trois directions du 
gradient conjugué et la direction de 


Newton. 


Introduction 
Nous nous intéressons aux problèmes d'optimisation non linéaire sans contrainte, formulés comme suit 


min f(x 4.1 
min f(2). (4.1) 
où, f: R' + R est deux fois continûment différentiable; son gradient et sa matrice hessienne sont 
respectivement notés g(x) et V? f(x). De nombreuses méthodes de recherche linéaire ont été développées 
pour résoudre (4.1), qui servent toutes à générer une séquence {x4}4>0, Comme suit : 


To € R”, TR+i = Lk + axdy, (4.2) 


où, ax est la taille du pas et dx est la direction de recherche. 
La taille du pas az est principalement choisie, pour satisfaire des conditions de recherche linéaire inexactes. 
Ici, nous considérons les conditions de la règle de Wolfe forte [51, 52]. 


(ak + axdx) < (xx) + 6axgi dy (4.3) 
lg(tx + axdx)Tdx| < —0g} dx, 


où,0<ô<o<}i. 
Les différents choix de dy, identifient les différentes méthodes pour résoudre (4.1). 
Si nous choisissons 
do = —go; de+1 = —gr41 + Brdr, Br ER (4:5) 


comme direction de recherche à chaque itération, la méthode correspondante qui génère la séquence (4.2) 
est appelée méthode du gradient conjugué. La méthode du gradient conjugué est très utile et pratique 
pour résoudre (4.1) en raison de sa simplicité, de ses besoins de stockage réduits et de sa pertinence pour 
une utilisation avec de grandes valeurs de n [43]. La méthode du gradient conjugué possède la propriété 
de convergence globale, c’est-à-dire qu’elle converge vers la solution quel que soit le vecteur initial [43]. 
Le scalaire 6x appelé paramètre du gradient conjugué, détermine les différentes méthodes du gradient 
conjugué. Dans ce qui suit, nous donnons quelques valeurs célèbres de GB. 


T Wal 
HS __ JkyiVr FR _ llgx#ll? PRP _ JkyiVk 
k DATES gr? 7 TK Igk ll? ? 
va 
BCD = ÎLge+ 111? DY _ Ilgx+1ll? DL _ Jk+i(vk—tsx) 
k —drgr ? UK dyr ? TK dTyx  ? 


39 


OÙ, Yk = Jk+1 — 9h, Sk = xd et t > 0. 
Les méthodes correspondantes sont appelées Hestenes-Stiefel [31], méthode de Fletcher-Reeves (FR) [23], 
méthode de Polak-Ribiére-Polayk (PRP) [15, 146], méthode de descente conjuguée [21], méthode de Dai- 
Yuan (DY) [15], méthode de Dai-Liao (DL) [16], respectivement. 

De nombreux chercheurs ont entrepris de développer de nouvelles méthodes hybrides du gradient 
conjugué en combinant des approches classiques. Ces méthodes hybrides ont été largement confirmées 
comme étant efficaces par de nombreuses expériences numériques. Par exemple, 


Br = (1—03)BPE +OLBET, 0 <87 <1 (4.6) 
dyss = dE HdERP LE (1 —p)dPT, 0 < 6,9% < 1 (4.7) 
dura = AR dPY + OO? + (1 dés, 0 < À, <1 (4.8) 


Les méthodes correspondantes : Hamel et al. [26], Ben Hanachi et al. [28], Hallal et al. [29] respective- 
ment. 
Si nous sélectionnons 
dei = —V*f(xes1) get, (4.9) 


comme direction de recherche à chaque itération, la méthode correspondante qui génère la séquence 
(4.2) est la méthode de Newton. Cette méthode se caractérise par une convergence quadratique lorsque 
l’'initialisation est proche de la solution [11]. La méthode de Newton est efficace pour les problèmes de 
petite taille, mais elle n’est pas adaptée aux problèmes à grande taille en raison des besoins de stockage 
et des coûts de calcul élevés pour évaluer la matrice hessienne [11]. 

L'efficacité de la méthode de Newton pour les fonctions non convexes dépend du vecteur initial sélec- 
tionné et peut être divergente, s’il est trop éloigné de la solution [11]. De plus, de nombreux efforts ont 
été déployés pour améliorer la méthode de Newton, grâce à des algorithmes pratiques, comme la méthode 
quasi-Newton, qui remplace le calcul coûteux de la matrice hessienne par une matrice approximative, 
facilement mise à jour [36]. Cependant, ces améliorations impliquent toujours l’évaluation de matrices, 
ce qui les rend plus coûteuses que les algorithmes basés sur les calculs de vecteurs. C’est pourquoi nous 
envisageons de développer un nouvel algorithme d’optimisation qui se base uniquement sur des calculs de 
vecteurs, converge quel que soit le vecteur initial et est conçu pour construire une direction qui approxime 
étroitement la direction de Newton. 

Dans [5], Andrei à introduit une méthode hybride du gradient conjugué en tant que combinaison 
convexe de deux directions de descente de Fat di 5. Le paramètre d’hybridation est calculé de manière 
à ce que la nouvelle direction soit égale à la direction de Newton. 


gr + (1 — 0)BE de + OR BR de = —V?f(tr41) gr41. (4.10) 
En multipliant les deux côtés de l’équation ci-dessus par av f(xx+1), nous obtenons 
8% V?f(ar+1)gne1 + (1 — BR SE V° f(rrr1)dr + BE SE NV? F(tr41)dr = —5% +1. 


où 0 < 0x < 1. 

Sachant que, pour l’algorithme quasi-Newton, une matrice d’approximation B4 de la hessienne V? f(xy) 
est mise à jour, de sorte que la nouvelle matrice Bzx+1 satisfasse l'équation sécante Bx}15x = yx. Par 
conséquent, afin d'obtenir un algorithme d'optimisation à grande taille, Andrei [5] évite d’évaluer la 
matrice hessienne en se référant à Zhang [59], qui a prouvé que y4 est une approximation de V? f(xx11)sK. 
Ensuite, en obtenant 0, comme 


T 
Sr 9k+1 

0x = — T 
Ix+19k 


Par conséquent, la direction est une approximation de la direction de Newton. Pour plus de détails, voir 
5]. 

Dans ce travail, motivé par les travaux d’Andrei [5], nous cherchons à développer un nouvel algorithme 
hybride de gradient conjugué, tel que la nouvelle direction soit construite pour approximer la direction 
de Newton. Pour cela, comme dans [28, 29], nous envisageons la possibilité de combiner trois vecteurs 
de descente de l’algorithme du gradient conjugué, sous la forme suivante: 


dir = prdeT + Ad S + (1 — pr — Àk)der, (4.11) 
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4.1. Hybridation quasi convexe des méthodes de gradient conjugué. 


où w% et À4 sont les paramètres d’hybridation. 

Dans (4.7) et (4.8), les auteurs [28, 29], ont développé une combinaison convexe de la méthode du gradient 
conjugué, en prenant les paramètres d’hybridation 0 < Ô4,77k < 1 et en les calculant de manière à ce 
que la direction satisfasse la condition de conjugaison d? 11ÿx = 0. Dans ce travail, nous considérons 
les paramètres d’hybridation w%,A4 € R et les calculons de manière à ce que la direction proposée, 
approxime étroitement la direction de Newton en utilisant l'équation sécante, tout en prenant en compte 
le fait que ces paramètres doivent être choisis, de manière à rester bornés pour assurer la convergence de 
l’algorithme. Nous appelons cette méthode d’hybridation une combinaison quasi convexe de la méthode 
du gradient conjugué. Une discussion détaillée sera présentée dans la section 4.1. 


4.1 Hybridation quasi convexe des méthodes de gradient con- 
jugué. 

Dans ce travail, nous introduisons une nouvelle méthode hybride de gradient conjugué basée sur trois 

vecteurs de descente dP y. di S et dP Len définissant la direction de recherche comme suit, 


do = go, dry1 = prdé" + Adp ” + (1 — px — Àx)dpT. (4.12) 


où, les paramètres Àx, wx € R. Nous appelons cette méthode d’hybridation une combinaison quasi 
convexe de méthodes de gradient conjugué. 
Nous pouvons écrire 

do = go, drxi = —gr41 + BP Cd, (4.13) 


Nous désignons le paramètre du gradient conjugué par Der qui prend la valeur de 
OT = prb + BR + (1 pr — M)BPT. (4.14) 


Supposons que V2? f(x)! existe à chaque point itératif pour la fonction objective f, motivé par Andrei 
[5], nous calculons le scalaire ÿ% de sorte que notre direction de recherche donnée par (4.13), (4.14), soit 
égale à la direction de Newton, c’est-à-dire 


gr + (prb + ABS + (1 — pe — A)BR )de = —V?f(cr41) 7 gR+1. (4.15) 
En multipliant les deux côtés de l'équation (4.15) par sT V?f(xx+1) à gauche, nous obtenons 
SE NV f(art)ge+ + (orBe + ABS + (1 — pr — Ax)BR T)sE V° f(ærr1)dr = —sEgnr1. (4.16) 


Nous remarquons que dans (4.16) la présence de la matrice hessienne, ce qui pose problème lorsque la 
dimension est grande. Que pouvons-nous faire pour éviter le calcul coûteux de la matrice hessienne ? 
Sachant que, pour les algorithmes quasi-Newton, une matrice d’approximation B% de la hessienne 
V?f(xz), est mise à jour de sorte que la nouvelle matrice Bz11 satisfasse l'équation sécante Bz115x = y. 
Rappelons que, dans [59], Zhang a montré que, pour les fonctions linéaires et quadratiques, yx est 
exactement V?f(xxy1)sx, c’est-à-dire V?f(æx+1)sx = yx, et pour les fonctions générales, si || sx || 0, 
alors ST V?f(xx+1)8x — ST yx = o(|| sx ||). 
Ainsi, yx est une approximation de V?f(xx11)sx, c’est-à-dire 


V?f(xrr1)se © Ye, (4.17) 
donc 
SV (tr) R Ur. (4.18) 


Par conséquent, si nous substituons (4.18) dans (4.16), la nouvelle direction (4.13), (4.14) sera une 
approximation de la direction de Newton. 
Ainsi, à partir de (4.18), (4.16) devient 


V8 ge + (PRBRT + ARBRES + (1 — ox — x) BE )yR de = — SE gn+1, (4.19) 
Substituons les valeurs de BPY, BAS et BP£L (prendre t — 1 dans BP£ pour simplification). Nous obtenons 
PR 
— VE ge+i — AkgE ur — (1 — Ax)(gE vx — 9Éi1Sk) — ST gk+1 (20) 
(Il ge+1 (2 —g%1(ge+1 — 9x) + ghi1sx | 
alors 
Xk9T 158 
Px = res VMER, génskt9k er À 0 (4.21) 


Jh15k + 9 Jk+1 
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4.2. La condition de descente suffisante 


Remarque 8. Dans ce travail, nous prendrons t = 1 dans ei pour simplifier les calculs. 


Algorithme QCC 


Etape 0: Choisir le point initial xo € R°,e>0,t=1. 
Calculer fo — f(xo) et go = V f(xo). 
Définir do = —go, l'estimation initiale ao = TI: Soit 4 —0. 
Etape 1: Tester un critère pour arrêter les itérations, c’est-à-dire si || gk [< €, alors arrêter. Sinon, 
passer à l’étape 2. 
Etape 2: Calculer la taille de pas ax en utilisant les conditions de strong Wolfe Powel 
Etape 3: Mettre à jour la prochaine itération par æx31 = 2x + axdg. Calculer gx31 = Vf(xx+1), 
Uk = Qk+1 — 9k € Sk — Tr+1 — Tr. 
Etape 4: Calculer (Àx,4%) comme dans (4.66). 
Etape 5: Calculer PES comme dans (4.14). 
Etape 6: Calculer d = —gy11 + ee 
Etape 7: Si 
lgLagel > 0.2 || sea [P, (4.22) 


alors dx31 = —gx+1. 
Sinon définir dg+1 = d. 


Etape 8: Définir la valeur initiale ax = ax-_1 ll, 


Etape 9: Soit k = k +1, Revenir à l’étape 1. 


À partir de l’algorithme QCC, nous savons que si le critère de redémarrage de la condition de Powell 
[17] (4.22) n’est pas satisfait, c’est-à-dire 


\gé+1grl < 0.2 || gi |? (4.23) 


alors nous définissons une nouvelle direction de recherche par (4.13). 


4.2 La condition de descente suffisante 


Le théorème suivant confirment que la condition de descente et de descente suffisante est satisfaite. 


Théoreme 15. . 

Soit vx donné par (4.21) et \x supposé être choisi strictement positif (A4 > 0). 

Supposons que ax dans l'algorithme QCC, soit déterminé par les conditions de la règle de Wolfe forte 
(4.3), (4.4). 


si0<o< +, 


alors la condition de descente suffisante 
gkridkt1 < —c || gr ||? (4.24) 
est satisfaite. 


Démonstration 6. . 

La preuve est réalisée par induction mathématique. 

Pour do = —go, on obtient, 9 do = — || go [?< 0. 

Si (4.22) est vérifié, g£1dr41 = — |] ge+1 [?< 0. 

Si (4.22) n’est pas vérifié, alors nous obtenons (4.23) et dy; comme dans (4.13), (4.14). 
Supposons que, g1 dx < 0 soit satisfait, montrons qu'il est satisfait pour k = k+ 1. 
Multiplions la direction dx+1 donnée par (4.13), (4.14) par gx+1, nous obtenons 


Gide = — |} geei [7 (or BP + AR BE + (1 — x — À) TP) gi de 


donc 


Dei d+1 = — {| ge I? pr BP gr 1dk FL 06) FE dratôn + An “ Eu Eee 


En substituant les formules de PE: el pee dans la relation ci-dessus, nous obtenons 


T 2 IL 941 7 7 UT #6) 
Jéride+1 = — || gk+1 || her JkHidk LE (1 — x) 7 JEr1dk 
k Uk k Vk 


(Ur gi ua(yx — S+) 


T 
de. 4.25 
dTyr dTyr )9k+1 k ( ) 


+ À 
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4.2. 


La condition de descente suffisante 


sachant que yx = ÿx+1 — gk, la relation (4.25) devient 


IL 942 | Ghra((gr+1 — 9x) — 8x) 
ghoadesi = — || gue [7 pr gd + (1 — px) JR dR 
dr, VE dx, Uk 
T 
9x+15k 
+ A gl 1d8, (4.26) 
dg, Uk 
En simplifiant les calculs, nous arrivons à 
I 9x1 |? Î ge+1 |? —9éy198 — 9éyise 
Jhridkn = — || ges [7 +pr EE —géri dr + T- gi de 
dé Uk dé Uk 
Î gra 7 —gér19r — Jersk Jk+158% 
k = Ga de + Ne 9 ide) (4.27) 
d;, Uk d;, k 
En poursuivant les simplifications, nous obtenons 
IL gk+1 |? Îg+1 Î? —9k419x — Jk418k IL 9x+1 | 
Jhridk = — || ges [7 +R géri dr + T- gi dr — kr Uk+1dk 
dÿ, Uk dx. Uk k Uk 
T T T 
D JR+19k — JhHiSk 7 Jk+1Sk Tr 
1 de + Àk dx, 4.28 
du 9k+1 dTyr 9k+1 ( ) 
ainsi 
T T 
T 2 U%H r Jk+19k + Gk+15k 7 
d = — + —— d dy 
k+1dr+1 I gx | dy, id Eu Jk+1dk 
T T T 
9x+19k + 94158 T JrtiSk T 
+ RE de + À = — dy. 4.29 
ue Jude + AT dti de (4.29) 
En remplaçant la formule de 4 donné par (4.21) dans (4.29), nous obtenons 
I gu+1 |? Gh19k + Jk18k 
Ghrideer = — {| gra [7 + ge dr gd 
de Yk de Yk 
h+15k T kr SR T 
— Àk dT Jkridk + Àk TT Jkr1dr- (4.30) 
k Uk & Vk 
À partir de (4.21), nous avons 
JR 198 + g£18k : 1 
AgsST k+1 Pr” 
alors . 
ÀkS7 Jk+1 
Gha19n + Jisk = Du (4.31) 
En remplaçant la relation (4.31) dans (4.30), d en résulte 
IL gk+1 || Àk +158 
did = — || gré + grade + RE gE ide. (4.32) 
d, Uk Prdé Ur 
Sachant que 54 = ax;dx, alors 
T 2 
T 2,941 7 Aka (9x+1 dx) 
Ji = — || ge + grade + — TR — (433) 
de ue TT PA Uk 
D'une part, en utilisant la deuxième condition de la règle de Wolfe forte (4.4), nous obtenons 
due = g(tr + axdx)" dx — gx de > —(1 — o)gé dr, (4.34) 
Puisque 91 dx <0et0<ao< À, alors 
due > —(1— 0)gé dr > 0, (4.35) 


D'autre part, à partir de (4.21), nous avons 


1 GR r19% da CRET 
Pk ASE Jh+1 
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ainsi 


1 Ska 1 
Pk A8ST gr1  Àe 


Puisque ÀZ est supposé être choisi positif A4 > 0, alors 


1 _ 
< 9k+19k 


pk ASE gR+1 


Puisque dTyx > 0, ax > 0 et À > 0 alors 


kg A A ax (9811 dr)? 0 
k — ——————_— 
be PPT dur 
Wal 
Par conséquent, en multipliant (4.37) par la relation positive = did; nous obtenons 

k 

AkQp 1 8k de (gk119x) (981 dx) 

er y "+ dur | 


À partir de (1.39), alors (4.32) devient 


2 T T 
9% (9k419#) (9e +1 dx) 
ghiidezi < — || gkn |? 4 [get T_d k+1 k+1dk) 


g 
Eye dur 
donc 
T 
Jk+1 dk 
désidet < ge [À + gen f -gn9)— 
& Vk 
En utilisant la valeur absolue, nous obtenons 
941 del 
hpideti < — || get |? + | get 7 gg ES 
dj, yk| 
ainsi 
94 1dx| 
ghpideni < — {| gre [7 +] gen [7 Hg) 
Idé y | 
À partir de (4.23), il en résulte 
94 1d| 
gRridpsi < — || geea |? +(|| ge | +02 || 9641 EE 
Idé y | 
ainsi 
94 1d| 
gRridhei < — |} geei |? +12 || gen [7 EE 
Idé y | 


D'après la deuxième condition de la règle de Wolfe forte (4.4), cela est vérifié. 


\gkde| < —0 9x dr 


1.e. 
og dr < ghr1dk < — 09} dk. 
Alors 
dE Ur = 9Eidr — 98 dr > —(1— o)gf dx > 0 
ainsi 


1 1 
< ; 
dur —-(1-c)g{ds 
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(4.37) 


(4.38) 


(4.39) 


(4.40) 


(441) 


(4.42) 


(4.43) 
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À partir de (4.42) et (4.43), on obtient 


|g4 1 dKl (ox 
IdTurl 7 1-0 


Alors (4.41) devient 
1.20 


Gesidkti | gen [+ = La lP 
par conséquent 
dde < (1-22) | (PF. (244) 
Si 0 < o < À, il suffit de prendre c = 1 — 122 > 0. 


Ainsi (4.24) est vérifiée. 


Notons que en premier temps on a considéré À4 € R, puis dans le théorème 15 on a trouvé que À4 doit 
être choisi strictement positif (V\x > 0) pour assurer que la condition de descente suffisante est vérifiée. 
Maintenant, dans le but d’assurer que notre direction dx soit borné, nous allons choisi À; en tenant 
compte du fait que ces deux paramètres À4,4w% doivent être facile à borner pour garantir la convergence 
globale de notre algorithme (une discussion détaillée sur la bornitude de À3, 4 sera décrite dans la section 
4.3). Ainsi, nous proposons cette valeur pour Àz. 


Xe = |gér18e + 9 kil, (4.45) 


Il est clair que dans le cas de gti 88 + 9T gx+1 # 0, alors À% est toujours strictement positif. De plus, 
selon ce choix on peut facilement simplifier la formule de w4 ce qui permet de faciliter la bornitude de 
notre direction. 

Ainsi, le couple (Àz,44) est donné comme suit. 


T T YTTNES 
(Ar: Pr) = (|9r418x + 9x 9k+1l, — 7 (4.46) 


Déi1Sk + JE 9k+1 
La discussion précédente concerne le cas où (g£,18x + 97 gk+1 # 0), qui est le dénominateur de w4. Que 
se passe-t-il si gl, 18k + gl gr+1 = 0 ? 
Dans ce cas, wx n’est pas bien défini, car le dénominateur est égal à 0, nous allons donc apporter une 
correction à ce dénominateur. 
Mettons 

MR = Jk18k + JE ht = 0 (4.47) 


Nous proposons la correction suivante pour le dénominateur mx. 


mi = mx + aut ur. (4.48) 
Aïnsi, le w4 corrigé est 
A0 ré 
Here Sen (4.49) 
my 


où, a € R*;ug,vx € R” doivent être déterminés de manière à ce que auT vx soit toujours différent de 
zéro (auTvx #0, Vk > 0). Cette technique est appelée correction vectorielle de rang un. (Ce type de 
technique à également été introduit pour déterminer la matrice Hessienne approximative, en utilisant une 
correction de matrice de rang un qui satisfait l'équation quasi-Newton (4.17), voir [49] 

Maintenant, nous allons essayer de choisir a € R*, ux, vx € R" de telle sorte que au? vx 4 0,Vk > 0. 
Supposons que 


Gk18k + 9 Jk+1 = 0 (4.50) 
i.e. 
GE QR+1 = —Ghr15k (4.51) 
nous avons 
gérise + gé gril © |gkz1sk| + 196 gel, (4.52) 
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À partir de (4.51), alors (4.52) devient 


UN 


CAES Lo 9 gk+1l = gRr15kl “le grr15kl 
= 2lgéis%l (4.53) 


À partir de la deuxième condition de la règle de Wolfe forte (4.4), il en résulte 
\gkæiSk + 9kGhr1l << —209f sk, (4.54) 
À partir de (4.50) et (4.54), nous avons. 
—20gk sk > |gé+18k + gk ge+il = 0. 
Alors 
—20g7 54 > 0. (4.55) 
Nous pouvons prendre, a = —2a, ul = g} et vx = sx où, 0 < o < ne Par conséquent, 
aux vr = —209i 84 Z0, Vk>O. 


Donc, le dénominateur corrigé de w4 est : 


mx = —20g} 84. 
Alors, wx devient 
Are 
Ge EE jen (4.56) 
209% Sk 


Rappelons que, dan le théorème 15, on a démontré la condition de descente sans correction, i.e. dans le 
cas où le dénominateur de w4 est supposé différent de zéro. Maintenant, dans le cas où le dénominateur de 
x est supposé égale à zéro, on a met une correction sur ce dénominateur, donc on doit encore revérifier 
la condition de descente, pour cela on va construire un nouveau théorème qui assure la condition de 
descente avec correction. 


Théoreme 16. . 

Supposons que, dite + gT gr = 0 et ax dans l’Algorithme QCC est déterminé par les conditions de 
la règle de Wolfe forte (4.3), (4.4). 

Si vx est donné par (4.56) et 


1-20 


Al < 4.57 
Pl 0.20 
où, 0 <o < À. 
Alors la condition de descente suffisante (4.24) est encore une fois vérifiée. 
Démonstration 7. . 
Nous essayons de simplifier APE en fonction des conditions que nous avons. 
DL Ra (Ur — 5x) .: JR (9k+1 = dà) — ds ; gr |? 9% 198 TL da Se 
: = — — 
dur dE ur dur 
Puisque JE 188 + 9T gk+1 = 0 %.e. gT gk+1 L —g£ 18% alors 
DE. = IL 9x+1 |? +Gh415k — Jk+18k = IL 9x+1 |? = gDY 
: dy uk dE yr Ô 
En multipliant la direction donnée par (4.13) et (4.14) par gk+1 et en posant BPE = BPY, nous obtenons 
Ghpader = — |} gn4i [7 (pré + ARBRES + (1 — pr — BE )gé ride (4.58) 
en simplifiant les calcules, nous obtenons 
Grpider = — || gra [7 +R + MBES + (1 MB — pet )gérid (4.59) 
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donc 
Jksidkti = — || gr [7 +R + (1) )gkr1dr, (4.60) 
en remplaçant les formules de ra ee et BP dans la relation (4.60), nous obtenons 
T T __|I2 
T 2 9x+1Vk I 9k41 
rsidk+1 = — | gxy1 LCA + (1 — À dE 4.61 
k+1dk+ 1 gx+1 1 + Free ( ) A )gh+1 (4.61) 
ce qui donne 
T 2 T 12 “4 T 12 T 12 Jk+1 dk 
Geside+i = — | gui + | ges (7 —Argerigrt | ge 7 —Ax | gg [°) A 
k 
ainsi 
ge 1dKl 
ghridhe1 © — || geea |l +1— Axgésignt || Ses |? DE (4.62) 
k 
alors 
\9%. 1dk| 
ghideæi << — || ge [7 + Allgrsigel+ | ge 
dé vr| 
en utilisant (4.23), il en résulte 
T 2 2 2 |9 41 dr | 
Geride+1 | 9x4 || +(0.2/Axl | gi |] tan (4.63) 
k 
par conséquent 
(0.2/ x] + 1)o 
Gksidkti © — || gx ||? FL, Nan ls 
ce qui donne alors 
(0.2/X%| + 1)o 
ad < -Q- CMOS, fou 12. 
— © 
Pour que la condition de descente suffisante soit satisfaite, il suffit que 
0.2} À 1 
je SERPPLES (4.64) 
1-0 
En prenant 0 < a < À, quelle est la valeur de Àx pour atteindre (4.64) ? 
Clairement, nous avons toujours 
0.2/4] +1 
(0.21 xl + 1)o > 0, (4.65) 
1-6 
car 0 < o < =. Ensuite, nous allons choisir Àx de telle manière que 
(0.2/ x] + 1)o 1 
1-0 
alors 
0.20 l+0 < 1-0 
ainsi 
1-20 
À 
ul 0.20 
ce qui donne 
1-20 ” ” 1-20 
026 ‘* 02%. 
1-20 1-20 
Il suffit de prendre À; = 22 — ET OÙ Àj = — 2 = — 2e - 
Maintenant, nous résumons l’analyse précédente en donnant le couple (Àg,wx) comme suit 
(lgLi18e + oeil te) IE gfisx + Ton #0 
(À, Cr) = +188 0 9R IR Gras Sk + 9R Jk+1 HAAËRCIRIRE | (4.66) 


( 1-20 NTNEES ) 


0.4o ? 2097 sk Sinon 


où, 0 < o < À. 
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4.3 Les propriétés de convergence de notre méthode 


Les hypothèses essentielles (voir [7]) suivantes sur la fonction objective, sont nécessaires pour établir la 
convergence globale de notre méthode hybride (QCC). 


H1. L'ensemble de niveaux H = {x € R"/f(x) < f(xo)} est borné, où x est le vecteur initial. 


H2. Dans un certain voisinage Q de #, la fonction objective f, est continument différentiable, son 
gradient est continu Lipschitz, par conséquent { > 0 tel que 


I gx) — g(y)I<1x-yl  Y xyeQ. (4.67) 


Ces hypothèses impliquent que 27 > 0 tel que 


gtx) Sn, VreH (4.68) 
Le lemme 5 de Zoutendijk [60] et le Lemme 6 vont être utilisé pour démontrer le théorème de convergence 
ci après. 
Lemme 5. . 


Supposons que les hypothèses H1 et H2 ci-dessus, soient vérifiées. 

Considérons toute itération de la forme (4.2), où dy satisfait à la condition de descente gT dx < 0 et ax 
satisfait à la recherche linéaire inexacte de Wolfe, ou à sa version forte, 

alors on a 


T 2 
D» Gi < +00 (4.69) 
22 de | 


Lemme 6. /29]. 
Supposons que les hypothèses H1 et H2 ci-dessus soient vérifiées. Si dx est une direction de descente et 
que la longueur du pas ax satisfait 


gr1dr 2 og} dr, TC < 1, (4.70) 
alors 


a 1—0 |d} gxl 
EE EE 


(4.71) 


À partir des hypothèses H1, H2 et (4.24), il en résulte que az, obtenu dans l’algorithme QCC n’est 
pas égal à zéro, c’est-à-dire 1p > 0 tel que 


ax >p, Vk2>O0. (4.72) 
Le théorème suivant donne la convergence globale. 


Théoreme 17. . 

Supposons que les hypothèses H1 et H2 soient satisfaites, pour tout xo € R”, soit xx la séquence générée 
par l'algorithme QCC. 

Alors l'algorithme QCC' est globalement convergent, ï.e. 


lim inf || gx [= 0. (4.73) 
kr 00 


Démonstration 8. . 
la démonstration se fait par un raisonnement par l’absurde. 
Supposons que (4.73) soit faux. Alors 3r > 0 tel que 


gx > r. (4.74) 


En utilisant la deuxième condition de la règle de Wolfe forte inexacte (4.4) et la condition de descente 
suffisante (4.24), il en résulte que 


dEyr > —(1— o)gx dr > (1— oc || 9x |? 
D'après (4.74) nous obtenons: 


dTyx > (1— o)cr?, 
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donc 
1 2 1 
dyr  (1—o)cr? 


D'autre part, ee (4.24) et (4.74), nous avons 


— gx dr > c || 98 [?> cr? 
ainsi 
1 1 
< 


—gT dx — cr? 


Sachant que yx = gk+1 — gx et 8x = Txy1 — xx, selon (4.67), nous avons 
lux (ST sx ]< D, 


où, D = max || x — y || /x,y € H est le diamètre de l’ensemble de niveau H. 
D'après la formule de dy11 dans (4.13), nous avons 


CC 
I den SI geta 1 +8 ST de |: 
Sachant que, d’après la formule de id donné par (4.14), nous obtenons 
CC 
RTE lee A+ DB ST + IC — or — A) 1182 
où, d’après les formules de pee, pPr el pue nous avons 


9x1 (ve — 8x)| 2 lgesivel + 196115) = Îgkæ+1 I ÿe À + 1 9x1 I sx |] 
Id yr| _ Id yx| _ de ur| 


18671 = 
de même que 


|82*| _ I Jk+1 |? 
dE ur| 


et enfin 


gs = ISéavel IL ge Vu 1 
duel IdEul 
D'après (4.68), (4.75) et (4.78) alors 


ID + nD 
DL - 1 
Be (1 — o)Cr? 
ainsi que 
2 
DY | ee 
Be l< (1 — o)Cr? 
de plus 
ID 
HS| n 
Bel (1—o)Cr? 


Ensuite, d’après (4.81), (4.82) et (4.83) alors la relation (4.80), devient 


B2CC) < |px|n° l\x|niD n H — @r — Àg|(niD + nD) 
è —  (—-o)cr?  (1— o)cr? (1 — o)cr? 


En ce qui concerne la bornitude des paramètres d’hybridation (Ax,wx), ü y a deux cas. 


lg Sk+ 9x gh+ilgR SR ) 


1. (x, gx) = (|gk+18k + gk gx, JriiSk + 9R Jh+1 


D'après (4.23), (1.68) et (4.78) 
LAel = |gesase + 98 gril SI gui [III se |] +02 || ge+a [7 | < nD + 0.277 = «1 
De (1.68) et (1.78) 


lg ise + 97 gkn1llgE sel 


= |griskl I] ge+a Il sx 1 nD = a 
ES + 9 gril Le 


lpel — 


H — @r — À] <1+ lol + Ar 1 + a2 + a1 = as 
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(4.81) 
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2. (x; Pr) = (ie AE 


0.40 ? 2097 sk 


1-20 1-20 
= I = SE = 


car 0 < o < À 
d’après (4.77), (4.68) et (4.78) 


9% 15% | : big 158 | < b1 || ge [|| 8e || ”., binD 2h 


xl = [20g9Ë sx| E 20|g4 sk| = 20|gf sk| — 2ocr? 


H — x — À] <1+ or] + Ar] 1 + b2 + b1 = b3 


Dans les deux cas, les paramètres sont bornés, donc nous pouvons résumer en disant que 


lAx| < A (4.85) 
xl < B (4.86) 
H—ypk-Al < C (4.87) 


Ensuite, selon (4.85), (4.86) et (4.87), la relation (4.84) s'écris 


RE pe ee jus 
Sachant que 54 = az;dx, donc 
IL dx [= ll (4.89) 
ensuite, utilisant ((4.72)) et (4.78) alors (4.89) s'écris 
Ia <% (4.90) 


Par conséquent, à partir de (4.68), (4.88) et (1.90), la direction dyx+1 est borné, ï.e. (4.79) devient 


D 
I de+1 ÎS 7 + Fe (4:91) 
avec M est une constante positive. 
Ce qui donne alors 
1 1 
> 
dr | 7 M 
Donc 1 1 
>, Du 
ln SM 
Par conséquent, 
1 
2 — +00. (4.92) 
22 Ta TE 
De plus, à partir de (4.69), (4.74) et (4.24), il en résulte que 
1 || 9x ||° (gx dr)? 
2,4 k 
CT — < ———- < < +00, (4.93) 
LTar 2 Talr 2e 


alors 


1 
ÿ < +00. 
2 
2 Ta 
Ceci est une contradiction avec (4.92), donc (4.73) est prouvé. 
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4.4 Les expériences numériques 


Dans cette section, nous analysons les performances de notre algorithme QCC appliqué sur plusieurs 
problèmes de test d'optimisation sans contrainte choisis de [8]. Chaque problème est testé pour des 
dimensions allant de 2 à 10000. Nous illustrons l'efficacité de notre algorithme QCC, en le comparant 
aux les algorithmes DY, HS et DL à partir desquels il à été construit. Nous le comparons également 
à l’algorithme BFGS, pour confirmer que notre algorithme QCC est une meilleure approximation de la 
méthode de Newton, que l'algorithme BFGS. 

Tous les algorithmes utilisent les conditions de la règle de Wolfe forte, avec les paramètres ô = 0.0001 
et a — 0.1, ainsi que les mêmes critères d’arrêt || gx [lo < 1077. 
Toutes les expériences numériques sont réalisées sur un PC avec les spécifications suivantes: Intel(R) 
Core(TM) i5-3210M CPU @ 2.50GHz 2.50GHz, 4.00 Go de RAM. 


Les figures 4.1, 4.2 et 4.3, présentent les performances de ces algorithmes en fonction du temps CPU, 
du nombre d’itérations et des évaluations du gradient, en utilisant le profil introduit par Dolan et Moré 


comme outil d'évaluation [22]. Comme toutes les figures ci-dessus le montrent, le nouvel algorithme 
1 
0.9- 
0.8- \n 
1» D. 
BE  - 
c° es + [Li «« 
VI L $ : se mimi « 
® 06! + Un 1 - 
* + CES 
LT + J . 
M 0.5 CELL | | 
y CE] 4 
& CRIE | « 
= à 44 1 
nus à ++ 
© CECI « 
= Es « 
2 0.3 CCI «4 » 
à 14 
= << 
02 dl +4 - 
CE 4 =4 
ul « 
0.1 = #« - 
FE +4 — QCC -— DY --DL-+-HS — BFGS 
4 
0 L 1 L 1 L 1 L 
0 2 3 4 5 6 7 


T 


Figure 4.1: Profil de performance pour le temps CPU. 


QCC est clairement supérieur aux autres algorithmes. 
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so 


Plog,{r, ) £<rtA1<s<n 


S 


pi 
Ê 
ST 


Figure 4.2: Profil de performance pour le nombre d’itérations. 
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Figure 4.3: Profil de performance pour les évaluations du gradient. 
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Chapitre D E 


Etude numérique de la convergence 


quadratique 


Introduction 


La méthode de Newton présente une convergence quadratique, ce qui est très favorable car cela signifie 
une convergence rapide vers la solution optimale. De point de vue mathématique, au voisinage de la 
solution optimale, les erreurs ex =| xx — x* || (où, x* est la solution optimale) satisfont l'inégalité, 


exs1 < Mef, pour certains M positive. (5.1) 


Rappelons que, dans chaque un des chapitres 2 et 3, nous avons développé une nouvelle méthode 
hybride de gradient conjugué en accord avec la méthode de Newton, nommés (DYDL) et (WYLCD) 
respectivement, dans le but d’atteindre numériquement le comportement de convergence quadratique ob- 
servé dans la méthode de Newton, tout en conservant certaines caractéristiques essentielles de l’algorithme 
de gradient conjugué (expliqué dans les chapitres 2 et 3). De plus, au chapitre 4, nous avons développé 
une combinaison quasi convexe entre trois directions de descente de l’algorithme du gradient conjugué; 
de sorte que la nouvelle direction soit construite pour approximer la direction de Newton en utilisant 
l'équation sécante, cette nouvelle algorithme est nommé (QCC). 

Dans ce chapitre, nous présentons un nouveau test, que nous avons développé pour étudier la conver- 
gence quadratique de nos trois méthodes hybrides de gradient conjugué. Le but de ce test est d'évaluer 
si l'algorithme proposé approche numériquement la convergence quadratique en analysant les rapports 
d'erreur entre deux itérations successives, et montrant graphiquement comment ces rapports d’erreur 
indiquent la présence d’un convergence quadratique dans le sens numérique. 

Ce test constitue une contribution importante de notre travail et offre une méthode fiable pour évaluer 
l'efficacité de notre méthodes de gradient conjugué. 


5.1 Description du test 
Le nouveau test que nous avons développé repose sur les étapes suivantes 
- Choisissons une fonction de test appropriée de [8]. 


- Exécutons l'algorithme d'optimisation, on se réfferons à l'algorithme (DYDL) et l'algorithme (WYLCD) 
ou bien l’algorithme (QCC) dans chapitre 2, 3 et 4 respectivement 


+ Pour chaque itération, nous calculons les rapport d’erreur rx avec deux itérations successives, 


_ [aep = 2" | 


TE —= [2 (5.2) 


| Th =T 


où, æ* est la solution exacte du problème. 
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-_ Nous traçons ensuite le logarithme de ces rapport d’erreur log(rz) en fonction du nombre d’itérations 
k pour observer leur comportement. 


* Nous nous attendons à ce que ces rapport d’erreur r; soient majorés (rx, < maxx>0(rx)), c'est-à- 
dire que rx ne dépassent pas une valeur constante, ce qui serait une indication de la convergence 
quadratique aux sens numérique de nos méthodes. 


5.2 Exécution du teste 


Nous allons étudier la convergence quadratique de notre trois algorithmes (DYDL, WYLCD et QCC) 
développés respectivement dans les chapitres 2, 3 et 4 en exécutant le teste que nous avons décrits. 
Nous utiliserons certaines problèmes de test choisies de [8], avec différentes dimensions. Tous les algo- 
rithmes appliquent les conditions de recherche linéaire de Wolfe forte; nous choisirons donc les valeurs des 
paramètres ô = 0.0001 et o« = 0.1. Nous considérerons également || gx [Lx < 107$ comme critère d’arrêt 

Dans les expériences numériques, tous les codes seront exécutés sur un PC ayant les spécifications 
suivantes: Intel(R) Core(TM) i5-3210M CPU 2.50GHz 2.50 GHz, 4.00 Go RAM. 
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Figure 5.1: La convergence quadratique de nos méthodes 


entre les algorithmes de gradient conjugué et ceux de Newton 


99 


5.3. discussion 


Les graphes dans la figure 5.1, illustrent la convergence quadratique de nos trois méthodes (DYDL, 
WYLCD et QCC). 


Lorsque nous analysons des cas tels que n = 260, n = 150,n = 250 et n = 258, nous observons que les 
méthodes DYDL et WYLCD convergent en un petit nombre d’itérations, tandis que la méthode QCC 
nécessite un plus grand nombre d’itérations. De plus, pour les même cas n = 260, n = 150,n = 250,n 
258, nous observons que log(rx;) associées aux méthodes (DYDL et WYLCD) ne dépassent pas 0, i.e. 
(rx < 1); par conséquent, les rapport d’erreur r; montrent une tendance d’être majoré. Cela indique que 
les méthodes (DYDL et WYLCD) peuvent avoir un convergence quadratique. Par contre, les rx; pour 
la méthode (QCC) ne montrent pas de tendance à être majorés. Donc on ne peut pas dire que (QCC) 
présente une tendance d’avoir un convergence quadratique. 

Lorsque nous analysons d’autres cas, tels que n — 360,n — 380 et n — 1005, nous constatons que 
les rapport d'erreur r; associées aux trois méthodes (DYDL) (WYLCD) et (QCC) ne dépassent pas 1, 
donc apparemment rz; présentent une tendance d’avoir un maximum. Cela indique que dans ces cas, les 
méthode (DYDL) (WYLCD) et (QCC) présentent également un convergence quadratique. 

Ce que signifie que, le développement d’un nouvel algorithme de gradient conjugué en se basant sur 
la méthode de Newton, marque une avancée significative pour améliorer l’accélération de la convergence 
dans les problèmes d’optimisation. 


L’interrelation entre les algorithmes de gradient conjugué et ceux de Newton 56 


Conclusion générale 


Notre travail vise à étudier les méthodes d'optimisation sans contraintes et à améliorer leur accéléra- 
tion selon un procède comparative. En particulier, nous nous concentrons sur l’étude des méthodes du 
gradient conjugué non linéaires et de Newton, dans le but de comprendre comment ces deux méthodes 
peuvent s’influencer mutuellement et se compléter pour améliorer les performances globales des méthodes 
d'optimisation. 


Afin de répondre à ce souci, nous avons développé trois algorithmes qui permettent de résoudre les 
problèmes d'optimisation non linéaire en combinant les avantages des méthodes du gradient conjugué et 
de Newton,, tout en évitant leurs faiblesses. 


En premier temps, nous avons développé un nouvel algorithme hybride de gradient conjugué qui relie 
les méthodes (DY) et (DL) dans un mélange convexe en se basant sur la direction de Newton. Cette 
méthode a été conçue pour être étroitement liée à la méthode de Newton, tout en évitant le coût de cal- 
cul associé à l'évaluation directe de la matrice hessienne grâce à l’utilisation de l’équation de la sécante. 
Cela la rend utile pour résoudre des problèmes d’optimisation à grande échelle. La condition de descente 
suffisante et la convergence globale ont été prouvées. 


Ensuite, suivant le même principe de notre première hybridation, nous avons élaboré l’hybridation 
des deux fameuse méthodes (WYL) et (CD) comme combinaison convexe, en se basant sur la direction 
de Newton. Cette méthode satisfait la condition de descente suffisante et la convergence globale. 


Nous avons développé également, une combinaison quasi convexe entre trois directions de descente de 
l'algorithme du gradient conjugué; de sorte que la nouvelle direction soit construite pour approximer la 
direction de Newton, en utilisant l’équation sécante. Nous avons démontré la propriété de descente et la 
convergence globale de cet algorithme. 


Nous avons démontré l'efficacité de notre méthodes grâce à des expériences numériques qui confirment 
leur supériorité par rapport aux algorithmes à partir desquels elles ont été construites, en termes de temps 
de calcul, de précision et de nombre d’itérations. 


Enfin, les méthodes du gradient conjugué et de Newton offrent des avantages distincts, et Sachant 
que, les trois algorithmes de gradient conjugué développés ( DYDL, WYLCD, QCC ) sont étroitement 
liés à la méthode de Newton. L’objectif était de préserver certaines bonnes propriétés des algorithmes de 
gradient conjugué tout en incorporant certaines propriétés souhaitables de la méthode de Newton. Nous 
avons donc développé un nouveau test numérique pour tester si les trois algorithmes proposés approche 
numériquement la convergence quadratique observé dans la méthode de Newton. 

Les résultats obtenus ont démontré que les méthodes, DYDL et WYLCD, présentent un conver- 
gence quadratique. En revanche, dans certains cas, la méthode QCC présente également un convergence 
quadratique. Toutefois, dans d’ autres cas, cette méthode n'offre pas de convergence quadratique et perd 
l’avantage de la convergence rapide observée dans les méthodes DYDL et WYLCD. 

Cela indique que généralement dans de nombreux cas, la construction d’un nouvel algorithme de gradi- 
ent conjugué qui s’accorde avec la méthode de Newton constitue une avancée significative pour améliorer 
l'accélération de la convergence dans les problèmes d’optimisation. 


Par conséquent, Notre test numérique constitue une contribution importante de notre travail et offre 
une technique fiable pour évaluer l’efficacité des nouvelles méthodes d'optimisation. 


En tant que perspectives futures, nous essaierons dans un premier temps de continuer à améliorer les 
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algorithmes du gradient conjugué et de Newton, et d'étendre leur applicabilité à un plus large éventail de 
problèmes. De plus, il pourrait être intéressant d’explorer d’autres nouvelles techniques d’hybridation, 
combinant les directions de gradient conjugué et de Quazi Newton. 
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